摘要 |
説明されるシステムおよび方法によって、文書固有のテキストフィンガープリントによる、電子メールメッセージおよびHTML文書などの電子文書の分類が可能となる。テキストフィンガープリントは、各々の対象文書のテキストブロックに対して算出され、それぞれのテキストブロックの複数のテキストトークンによって決定される文字のシーケンスを含む。一部の実施形態ではテキストフィンガープリントの長さは、短いテキストブロックに対してズームインし、長いものに対してズームアウトすることにより、テキストブロックの長さに関わらず、長さのあらかじめ決定された範囲内に(例えば、129文字から256文字の間に)あることを強いられる。分類は例えば、電子文書が、非請求通信(スパム)、または、フィッシングなどのオンライン詐欺を表すかどうかを決定することを含み得る。 |