アクセスログを利用したアクセスパターンの解析
98H134 福井隆幹
(page 1)
はじめに
教育者が教材として学生に見せるためのWebコンテンツを
作ったが、学生は自分が思っている通りに
見てくれているかどうか調べる方法がないだろうか。
本研究ではどの程度の閲覧者がWebコンテンツ製作者の
意図に沿っているか調べるための解析手法を確立する。
(page 2)
解析の方法
従来の方法
アクセスログからページのアクセスをカウントする
ページにアクセスされた回数のみを表示する
本研究での方法
アクセスログからアクセスパターンを抽出し、
カウントする
アクセスログを解析することによって
閲覧者のアクセスパターンを知ることが出来る
(page 3)
アクセスパターン
ページをアクセスしている様子
AがWebコンテンツ製作者の意図通りのアクセス
B、Cが途中でWebコンテンツ製作者の意図から外れた
アクセス
(page 4)
アクセスログの内容
アクセスログにはクライアントからの1つのリクエストにつき
以下のような情報が1行で書き込まれる
fw2.osaka-sandai.ac.jp unknown - [29/Nov/2001:00:18:24 +0900]
................................... .............. .. ..............................................
1 2 3 4
"GET /home/andrew/work/mrtg-2.5.1/mrtg-m.png HTTP/1.0" 200 4707
............................................................................................. ...... ......
5 6 7
"http://www.fken.ise.osaka-sandai.ac.jp/SNMP/omp-r.1.html"
............................................................................................
8
"Mozilla/4.0 (compatible; MSIE 5.0; Windows 95; DigExt)"
...........................................................................................
9
(page 5)
アクセスパターンの抽出
アクセスログをクライアントのホスト名、
ブラウザバージョン、HTTPバージョンでsortする。
クライアントのホスト名ごとに切り出す。
切り出したログから同じ閲覧者と思われる部分の
リファラがあり、閲覧時間が1〜3600秒のものを
アクセスパターンとして取り出す。
(page 6)
意図するアクセスパターンの割合
A、B、Cのパターンをカウントし、それぞれをCxとする。
以下の式に代入することによって、どれだけの
閲覧者がWebコンテンツ製作者の意図に沿った
閲覧をしているかが解る。
(page 7)
結果の出力
(page 8)
まとめ
従来の方法と比べ、アクセスパターンを
提示することにより、どの程度の閲覧者が
Webコンテンツ製作者の意図通りの閲覧をしているか
解るようになった。
どのページでWebコンテンツ製作者の意図している
アクセスパターンから外れた閲覧者が多いのか
知ることが出来るようになった。
Webコンテンツ製作者のページ改良の際に
負担の軽減が期待できる。
(page 9)
今後の課題
ロボットからのアクセスをカウントしないようにする
結果を文字だけでなく、図示する
Webコンテンツの自動改良を行えるようにする
(page 10)