发明名称 具语意理解功能之垃圾邮件过滤系统及方法以及电脑可读取储存媒体
摘要 一种具语意理解功能之垃圾邮件过滤系统及方法,包含一常识树标示辞典、一特征纪录以及一过滤单元。常识树标示辞典储存字词元素以及语意之间的关联,特征纪录储存关联于语意与分类标示之数值,其中分类标示包含正常邮件标示以及垃圾邮件标示,用以识别电子邮件之类别状态。过滤单元,由电子邮件中取得复数第一字词元素,检索常识树标示辞典,取得相应于第一字词元素之复数第一语意,检索特征纪录,取得关联于第一语意与分类标示之数值,使用一分类方法,依据第一语意以及关联于第一语意与分类标示之数值,进行电子邮件分类。
申请公布号 TWI247217 申请公布日期 2006.01.11
申请号 TW092127140 申请日期 2003.10.01
申请人 财团法人资讯工业策进会 发明人 谢文泰;陈文鋕;杨永芳;周世俊
分类号 G06F15/167;G06F17/27 主分类号 G06F15/167
代理机构 代理人 洪澄文 台北市大安区信义路4段279号3楼;颜锦顺 台北市大安区信义路4段279号3楼
主权项 1.一种具语意理解功能之垃圾邮件过滤系统,包括: 一储存装置,用以储存一常识树标示辞典以及一特 征纪录,上述常识树标示辞典储存复数第一字词元 素以及至少一相应于上述第一字词元素之第一语 意,上述特征纪录储存至少一第二语意以及关联于 上述第二语意与一分类标示之一数値,上述分类标 示包含一正常邮件标示以及一垃圾邮件标示,用以 识别电子邮件之类别状态;以及 一过滤单元,耦接于上述储存装置,并且接收一电 子邮件,由上述电子邮件中取得复数第二字词元素 ,检索上述常识树标示辞典,藉由比对上述第二字 词元素以及上述第一字词元素,取得相应于上述第 二字词元素之复数第三语意,上述过滤单元检索上 述特征纪录,藉由比对上述第三语意与上述第二语 意,取得关联于上述第三语意与上述分类标示之上 述数値,上述过滤单元使用一分类模组,依据上述 第三语意以及关联于上述第三语意与上述分类标 示之上述数値,进行电子邮件分类。 2.如申请专利范围第1项所述之具语意理解功能之 垃圾邮件过滤系统,其中上述数値为一整数,代表 上述第二语意出现在相应于上述分类标示之电子 邮件之次数。 3.如申请专利范围第1项所述之具语意理解功能之 垃圾邮件过滤系统,其中上述数値为一比率,代表 上述第二语意出现在相应于上述分类标示之电子 邮件之机率。 4.如申请专利范围第3项所述之具语意理解功能之 垃圾邮件过滤系统,其中上述分类模组计算相应于 上述正常邮件标示与上述第三语意之上述比率乘 积,得到一第一机率値,计算相应于上述垃圾邮件 标示与上述第三语意之上述比率乘积,得到一第二 机率値,若上述第一机率値大于上述第二机率値则 将上述电子邮件分类至相应于上述正常邮件标示 之类别,否则将上述电子邮件分类至相应于上述垃 圾邮件标示之类别。 5.如申请专利范围第1项所述之具语意理解功能之 垃圾邮件过滤系统,其中上述储存装置中,更包括 一训练邮件,上述训练邮件包含一训练邮件标示中 之一者,上述训练邮件标示为上述正常邮件标示以 及上述垃圾邮件标示,用以识别上述训练邮件之类 别状态。 6.如申请专利范围第5项所述之具语意理解功能之 垃圾邮件过滤系统,其中更包括一训练单元,耦接 于上述储存装置,输入上述训练邮件,由上述训练 邮件中取得复数第三字词元素,检索上述常识树标 示辞典,藉由比对上述第三字词元素以及上述第一 字词元素,取得相应于上述第三字词元素之复数第 四语意,上述训练单元计算上述第四语意出现于具 有上述正常邮件标示之上述训练邮件之次数,求得 关联于上述第四语意与上述正常邮件标示之上述 数値,上述训练单元计算上述第四语意出现于具有 上述垃圾邮件标示之上述训练邮件之次数,求得关 联于上述第四语意与上述垃圾邮件标示之上述数 値。 7.如申请专利范围第6项所述之具语意理解功能之 垃圾邮件过滤系统,其中更包括一回馈单元,耦接 于上述储存装置,修正分类错误之上述电子邮件之 上述分类标示,将上述分类错误之电子邮件输入上 述储存装置,用以成为上述训练邮件。 8.一种具语意理解功能之垃圾邮件过滤方法,被一 具有一中央处理器之电子装置执行,其方法包括下 列步骤: 接收一电子邮件; 取得上述电子邮件中之复数第一字词元素; 检索一常识树标示辞典,取得相应于上述第一字词 元素之复数第一语意,上述常识树标示辞典储存字 词元素以及语意之间的关联; 检索一特征纪录,取得关联于上述第一语意与一分 类标示之一数値,其中上述分类标示包含一正常邮 件标示以及一垃圾邮件标示,用以识别电子邮件之 类别状态,上述特征纪录储存关联于语意与上述分 类标示之数値,用以代表语意出现于上述正常邮件 标示或上述垃圾邮件标示之出现频率;以及 使用一分类方法,依据上述第一语意以及关联于上 述第一语意与上述分类标示之上述数値,进行电子 邮件分类。 9.如申请专利范围第8项所述之具语意理解功能之 垃圾邮件过滤方法,其中上述数値为一整数,代表 语意出现在相应于上述分类标示之电子邮件之次 数。 10.如申请专利范围第8项所述之具语意理解功能之 垃圾邮件过滤方法,其中上述数値为一比率,代表 语意出现在相应于上述分类标示之电子邮件之机 率。 11.如申请专利范围第8项所述之具语意理解功能之 垃圾邮件过滤方法,其中上述分类方法为一贝氏分 类方法,上述贝氏分类方法输入上述第一语意,检 索上述特征纪录,取得关联于上述第一语意与上述 分类标示之上述数値,上述数値为一比率,用以代 表语意出现在相应于上述分类标示之电子邮件之 机率,计算相应于上述正常邮件标示与上述第一语 意之一第一机率値,计算相应于上述垃圾邮件标示 与上述第一语意之一第二机率値,若上述第一机率 値大于上述第二机率値则将上述电子邮件分类至 相应于上述正常邮件标示之类别,否则将上述电子 邮件分类至相应于上述垃圾邮件标示之类别。 12.如申请专利范围第8项所述之具语意理解功能之 垃圾邮件过滤方法,更包括下列步骤: 输入至少一训练邮件,其中上述训练邮件包含一训 练邮件标示,上述训练邮件标示为上述正常邮件标 示以及上述垃圾邮件标示,用以识别上述训练邮件 之类别状态; 取得上述训练邮件中之复数第二字词元素; 检索上述常识树标示辞典,取得相应于上述第二字 词元素之复数第二语意; 计算上述第二语意出现于具有上述正常邮件标示 之上述训练邮件之次数,求得关联于上述第二语意 与上述正常邮件标示之上述数値;以及 计算上述第二语意出现于具有上述垃圾邮件标示 之上述训练邮件之次数,求得关联于上述第二语意 与上述垃圾邮件标示之上述数値。 13.如申请专利范围第12项所述之具语意理解功能 之垃圾邮件过滤方法,更包括下列步骤: 修正分类错误之上述电子邮件之上述分类标示;以 及新增上述分类错误之电子邮件为上述训练邮件 之一。 14.一种电脑可读取储存媒体,用以储存一电脑程式 ,该电脑程式用以载入至一电脑系统中并且使得该 电脑系统执行如申请专利范围第8至13项中任一者 所述之方法。 15.一种具语意理解功能之垃圾邮件过滤方法,被一 具有一中央处理器之电子装置执行,其方法包括下 列步骤: 接收一电子邮件; 取得上述电子邮件中之复数字词元素; 取得相应于上述字词元素之复数语意; 取得关联于上述语意与一分类标示之一数値,其中 上述分类标示包含一正常邮件标示以及一垃圾邮 件标示,用以识别电子邮件之类别状态,上述数値 代表上述语意存在相应于上述分类标示之邮件之 出现次数或机率;以及 使用一分类方法,依据上述语意以及关联于上述语 意与上述分类标示之上述数値,进行电子邮件分类 。 图式简单说明: 第1图系表示依据本发明实施例之具语意理解功能 之垃圾邮件过滤系统之系统示意图; 第2图系表示依据本发明实施例之范例字词元素示 意图; 第3图系表示依据本发明实施例之特征纪录之第一 范例示意图; 第4图系表示依据本发明实施例之特征纪录之第二 范例示意图; 第5图系表示依据本发明实施例之具语意理解功能 之垃圾邮件过滤方法之方法流程图; 第6图系表示依据本发明实施例之具语意理解功能 之垃圾邮件过滤方法之电脑可读取储存媒体示意 图。
地址 台北市大安区和平东路2段106号11楼