May 08, 2004

異常検知のためのネットワークログ特徴抽出方式

山田明、三宅優、竹森敬祐、田中俊昭、山本明仁、三田村好矩,
"異常検知のためのネットワークログ特徴抽出方式"
SCIS2004 2004年 暗号と情報セキュリティシンポジウム、電子情報通信学会, Jan 2004.

計算機ログの解析に対する方法論の論文であり、データマイニングの手法を応用し、異常検知を可能にしようとする論文で、概要は以下の通りである

計算機ログから、一定期間毎に特徴を抽出し、それを過去の特徴と比較すれば異常を検知できる。この際の「特徴抽出」方法としてAOI(Attribute Oriented Induction)が一般的であるが、この方法には「概念的階層構造」を必要となり、これは事前に用意しておく必要がある。しかし、これでは種々の計算機ログに対して汎用的に扱うことができないという問題が発生する。そこでログの形式から概念的階層構造を生成する方法を提案する。という論文である.

IDSのログを解析する方法として、単一のログを対象とし、一般化と要約に基づき特徴を抽出する方法が提案されている。この一方法として Attribute Oriented Induction(AOI)を適用した特徴抽出方法が一般的であり、これは概念的階層構造を利用する。しかしこの階層構造は事前に用意しておく必要があり、連続して出力されるログに対して効率的ではない。というのがこの論文の問題点であり、これに対して動的に概念上の階層構造を生成する方法を提案する。と述べている。

データマイニングについては詳しくないので、ここから先は当方の推測になるが,AOIは木構造を利用し、各ノードに頻度かなんらかの数値が結びついており、この数値の低い複数のノードを閾値かなんらかの基準に基づいて集約するか、親ノードに統合してしまうことで、minorな情報を集約し、 majorな情報群を抽出する方法であると推測する。論文にも「構文上の木構造」と「概念上の木構造」という概念が紹介されており,これを基にログを要約 (集約)していくようである。したがって木構造を基に細い枝を太い枝にまとめてしまうというイメージだと推測する。

この概念的階層構造を自動で作り出すために、データを「数値属性」「離散属性」「木構造属性」に分類し、それぞれに対して動的に階層構造を生成する方法を提案している。各属性は、その各属性値の頻度に基づき、集約する方法が示されている.

また漸増するログに対して、毎回AOIの算出処理をするのは手間であるという問題があるという指摘をし、これに対して短期間毎にログを処理し、さらにそれらを基により大きな期間のデータとして集約していく方法を再帰的適用として提案している.

さてここからは当方の意見を述べる。

評価としてftpサーバのログを使って実験を行っているが、属性対応を人間が行ってしまっており、3.2節で述べている属性選択のための関数を使っていない点が気になった.本当に汎用的に様々なログに対してこの手法が有用なのか? なぜ同様の研究を行っている研究者がこれを行っていない、できていないのかと関係があるかもしれない(本質的に困難?)。これは今後の課題だと推測する。

また評価実験のデータであるログの情報量が少ないと考える。処理時間に関しては「実用的」であると述べているが,この手の処理の処理時間はデータ量に比例せず、データ量の2乗に比例して増大する。というようなことが多いので、実行時間の点からも本当に実用性があるかどうかは疑問である。また結果として得られるデータの表3であるが、これをみて素朴に思うのは頻度の高いもの、つまり「そういう行動が頻繁に発生していた」ということを示している。これはデータマイニングという技術の目的からして妥当なのだが、これがIDSのログから異常を検知するという目的に適しているのだろうか? という疑問がある。異常という事象が頻繁に発生するかというと、そうではないというのが一般的な見方だろう。だとすると頻度の高いものではなく、頻度の低いものに注目するのが常套手段であると考える.だとすると、この手法を逆手にとればいいと考えるだろうが、それがうまく機能するかは疑問である。この評価では出力を16行、集約率を75%にして処理を行ったというが、低頻度の抽出を目指した場合、このような集約率で集約できるかどうかははなはだ疑問である。なぜなら低頻度の情報抽出を行うと、高頻度の情報とは反対に、非常に多くのバリエーションが存在してしまい、その集約が困難だからである。また無理矢理集約しようとすると、必要(解析上有用)な情報までも集約してしまい,情報損失という結果を招きかねないという問題があるからである。論文の考察でも述べているが,この要約は目的達成のためのデータの一つであり、これをどうやってIDSやサーバのログ解析に役立てていくかはさらなる探求が必要だと考える。

また、AOI算出の期間分割に基づく再起的適用の方法についてだが、これにも問題があると考える。それは短期間毎にデータ解析し、それを基に長期間のデータを構築すると、長期間のデータをそのまま解析してAOIを求めるのと違う結果が得られるのではないかという問題である.なぜなら本来ならデータとして供給されるはずのデータが、短期間での解析によって失われ、長期間解析のためのデータとして渡されない可能性があるからと考える.

ただ、このようなログ解析の方法は当方としても非常に興味のある分野であり、かつデータマイニングによる手法は注目を浴びているログ解析方法の一つである。今後も注目に値する研究だと思う。

Posted by z at May 8, 2004 03:38 AM