• AIの先駆者アーサー・サミュエル氏は、機械学習を「コンピューターが明示的にプログラムされなくても学習する能力」を実現する方法・テクノロジーと定義しています。 アンチマルウェアに関する 教師あり学習 のタスクは、オブジェクトの特徴セットXおよび対応するオブジェクトラベルYを入力値として指定し、未知のテストオブジェクトX’の正しいラベルY’を出力する式とすることができます。Xはコンテンツやふるまいを表す何らかの特徴で(ファイル、統計、使用されたAPI関数のリストなど)、ラベルYは単純に「マルウェア」や「無害」です(より複雑な場合には、ウイルス、Trojan-Downloader、アドウェアなど、きめ細かくすることがあります)。 教師なし学習 は、データの隠れた構造を明らかにすることを目指します。たとえば、類似するオブジェクトや相関性の高い特徴のグループを探します。

    カスペルスキーの次世代技術を用いた多層保護は、検知パイプラインのすべての段階で機械学習を幅広く活用します。インフラストラクチャで受信したファイルの前処理には拡張性の高いクラスタリング手法を用い、ふるまい検知用の堅牢でコンパクトなディープニューラルネットワークモデルがユーザーのコンピューターで動作します。 実世界の情報セキュリティアプリケーションにおける機械学習モデルのいくつかの重要な要件、例えば、極めて低い誤検知率、モデルの解釈性、潜在的な攻撃者に対する堅牢性 などに対処するようにこれらの技術は設計されています。

    機械学習ベースのテクノロジーのうち、カスペルスキーのエンドポイント製品で使用されている重要なものをいくつか検証してみましょう。

    決定木アンサンブル

    このアプローチでは、予測モデルが決定木の形をしています (例:ランダムフォレスト勾配ブースト決定木 など)。 ツリーの非リーフノードすべてにはファイルの特徴に関する質問が含まれていますが、リーフノードにはオブジェクトに関するツリーの最終判定が含まれています。テストフェーズ中、モデルはノードの質問に当該オブジェクトの対応する特徴で回答しながらツリーを横断します。最終段階で、複数のツリーの判定がアルゴリズム固有の方法で平均化され、オブジェクトに関する最終判定が得られます。

    このモデルは、エンドポイントでの実行前のプロアクティブな保護段階においてメリットがあります。



    局所性鋭敏型ハッシュ

    このアプローチでは、ファイルの特徴を抽出し、直交射影学習を使用して、最も重要な特徴を選択します。機械学習モデルベースの圧縮が適用された後、類似する特徴値ベクトルは類似するパターンまたは同一パターンに変換されます。この方法で良好な汎化に到達できます。

    このモデルは、エンドポイントでの実行前のプロアクティブ保護段階においてメリットがあります。



    ふるまいモデル

    コンポーネント(ソフトウェア)の監視によってふるまいログを提供します。ふるまいログは、プロセス実行中に発生した一連のシステムイベントと、対応する引数です。観察されたログデータ内の悪意のあるアクティビティを検知できるよう、モデルは取得した一連のイベントを圧縮してバイナリベクトルのセットにして、クリーンなログと悪意のあるログを区別するトレーニングをディープニューラルネットワークに対して行います。

    このモデルは、エンドポイントサイトの実行後プロアクティブ保護段階にメリットがあります。



    ラボのマルウェア処理インフラストラクチャを適切に構築するうえで、機械学習も同じほど重要な役割を果たします。カスペルスキーは、機械学習を以下のようなインフラストラクチャの目的に使用しています。

    受信ストリームのクラスタリング

    機械学習をもとにしたクラスタリングアルゴリズムによって、インフラストラクチャに届いた大量の未知の受信ファイルを妥当な数のオブジェクトに効率的に分けることができます。その一部は、その中の注釈付けされたオブジェクトの存在をもとにして、自動的に処理されます。



    大規模な分類モデル

    非常に強力な分類モデル(巨大な ランダム決定フォレスト) など)には、プロセッサの処理時間とメモリのような大量のリソースとともに、高価な特徴抽出機能を必要とするものがあります。たとえば、サンドボックスを使用した処理には詳細なふるまいログが必要な場合があります。したがって、モデルをラボ内で保持して実行してから、大きなモデルの出力判定について軽い分類モデルを学習し、モデルによって取得した情報を抽出したほうが効果的です。



    機械学習の詳細については、ホワイトペーパーをご覧ください。

関連製品

US 8250655 B1

マルウェアバリアント間の類似性を認識するための迅速なヒューリスティック方法とシステム

詳しくはこちら

US 8955120 B2

マルウェア検知用の柔軟なフィンガープリント

詳しくはこちら

US9171155 B2

マルウェア検知ルールを評価するためのシステムと方法

詳しくはこちら

ホワイトペーパー

Machine Learning for Malware Detection

詳しくはこちら

ホワイトペーパー

機械学習と技術者の専門知識

詳しくはこちら

カンファレンス:2017年「ディープラーニングのベイズ法」スクール

詳しくはこちら

カンファレンス:CML 2017ワークショップ

詳しくはこちら

カンファレンス ICLR 2017

詳しくはこちら

評価(関連テストレポート)

  • ICSA:高度な脅威対策テスト(2017年第3四半期)

  • AV-Comparativesが2016年2月~6月に全製品に対して実施したWhole Product Dynamic Real-World Proteciton Test

  • SELabsが2017年7月~9月に実施した企業向けエンドポイント保護に関するテスト

  • 2016年AV-Testベストプロテクション賞受賞(KES)

  • 2016年AV-Testベストプロテクション賞受賞(KSOS)

関連テクノロジー