自サーバー内不正コンテンツの自動検出

96H713 浜中善洋

はじめに

近年のWebコンテンツは、HTML等のテキストファイルの他に画像や音声・動画など、多種多様なフォーマットを用い提供されている。しかしそれらのコンテンツの中には公序良俗又は法令に違反するものも少なくない。ここではこのような、公序良俗又は法令に違反するコンテンツを不正コンテンツとよぶこととする。しかもそれらのコンテンツは、プロバイダ等のサーバー管理者にとって非常に迷惑となる場合が多い。

研究内容

一般的に不正コンテンツは、サーバー管理者の手作業により検出され、多くの場合サーバー管理者によりユーザーへ注意警告を行ったり、直接コンテンツ自体を削除するなどの処置を行っている。

ここで本研究での着目点は、サーバー管理者が手作業で行っている不正コンテンツの検出作業自動化にある。ユーザーの隠蔽作業に対応した不正コンテンツを自動検出するツールがあれば、サーバー管理者はより良いネットワークサービスをユーザーへ提供するという作業にもっと力を入れることが出来る。よって本研究の目的は、自サーバー内不正コンテンツの自動検出を実現し、管理者の不正コンテンツ検出のための労力を軽減するプログラムを作成する。

具体的には、サーバー内で提供されているWebスペ－ス内で、公開されていると見られるファイルと公開されていないと見られるファイルを検出し、両者のファイルリストから、任意の抽出条件を満たすファイルリストをレポートとして出力する。レポートは、ファイルの名前、フォーマット、サイズ、更新日時等が表示され、フォーマット等の条件を設定することにより、抽出や強調表示を行うことができる。このレポートを元にしてサーバー管理者は、不正コンテンツの審査を行うこととなる。よって実際にはそのコンテンツが不正であるかどうかは、最終的にはサーバー管理者の手作業に頼ることになる。

まとめ

今回作成したプログラムでは、検出されるべき不正なコンテンツを検出するには、サーバー管理者の知識・経験や勘が多く必要となる。つまりそのコンテンツが不正であるかどうかの判断は、現状のプログラムでは特定することが出来ない。よって疑わしいと思われるコンテンツのファイルサイズや更新時刻など、ある程度推測してファイルリストの抽出を行う必要がある。またHTTPdのアクセスログを利用するなどはレポート出力に有効であると思われる。

上記のしたように現状のプログラムでは、コンテンツを不正かどうか最終的に判別するのはサーバー管理者の手に委ねられている。今回は不正コンテンツを自動検出するには至らなかったものの、不正コンテンツを検出するのに必要な要素は提供することが出来た。これからの課題として、何よりも出力されるレポートの充実が上げられる。