发明名称 | 基于贝叶斯网络的用于文件检索的方法和设备 | ||
摘要 | 本发明提供一种在计算机中用来获得代表数据库中的一个文件的主题词的方法,这些主题词适用于文件检索。这种方法包括:从这个文件中找出文件关键词;将每个文件关键词归类到一组预先确定的关键词类的一个类中;选取一些词作为主题词,每一个被选择的词都出自一个不同的预先确定的关键词类,并使所得到的主题词的代价函数值为最小。这个代价函数可以为一个相异性的测度,例如两个分布的交叉熵,第一个分布为一个常规文件中的一组文件关键词出现的似然分布,第二个分布也是一个常规文件中的一组文件关键词出现的似然分布,但第二个分布是由所选择的主题词近似而得的。代价函数可以作为对优先文件进行排序的一个基准。 | ||
申请公布号 | CN1211769A | 申请公布日期 | 1999.03.24 |
申请号 | CN98102672.9 | 申请日期 | 1998.06.26 |
申请人 | 香港中文大学 | 发明人 | 黄永成;秦桉 |
分类号 | G06F17/30 | 主分类号 | G06F17/30 |
代理机构 | 中原信达知识产权代理有限责任公司 | 代理人 | 王维玉 |
主权项 | 1.一种在计算机内用来获得代表一个文件的主题词的方法,该主题词适于存入计算机数据库的索引结构中,这种方法包括以下步骤:从一台数据输入设备接受一个文件的至少一部分,该文件的这一部分包括词;由该文件的这一部分求得一组文件关键词;将每个文件关键词归入其中一个预先建立的一组关键词类中;以及选取词作为主题词,每一个所谓被选取的词来自一个不同的预先建立的关键词类,并使所得到的主题词的代价函数值为最小。 | ||
地址 | 中国香港 |