发明名称 | 文档查询方法及装置 | ||
摘要 | 本发明公开了一种文档查询方法及装置,属于数据查询领域。所述方法包括:通过获取待查询的文档q和该文档q对应的类别C<sub>p</sub>;通过与类别C<sub>p</sub>对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式v<sub>q</sub>;根据v<sub>q</sub>在与类别C<sub>p</sub>对应的主题-文档矩阵V<sub>p</sub>中查询与该文档q相似的历史文档;其中,词-主题矩阵和主题-文档矩阵V<sub>p</sub>是预先对各个历史文档按照不同类别进行组非负矩阵分解所得到的矩阵;本发明解决了目前查询方法所查询到的历史文档的结果不一定符合用户预期的问题;达到了通过词-主题矩阵和主题-文档矩阵V<sub>p</sub>来进行文档查询,提高了查询的准确率,优化了文档查询的结果。 | ||
申请公布号 | CN104239402A | 申请公布日期 | 2014.12.24 |
申请号 | CN201410353033.4 | 申请日期 | 2014.07.23 |
申请人 | 中国科学院自动化研究所;腾讯科技(深圳)有限公司 | 发明人 | 周光有;蒋杰;王巨宏;薛伟;管刚;赵军 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京三高永信知识产权代理有限责任公司 11138 | 代理人 | 滕一斌 |
主权项 | 一种文档查询方法,其特征在于,所述方法包括: 获取待查询的文档q和所述文档q对应的类别C<sub>p</sub>; 通过与所述类别C<sub>p</sub>对应的词‑主题矩阵将所述文档q变换到主题空间上的最优表示形式v<sub>q</sub>,所述词‑主题矩阵包括词和主题之间的对应关系; 根据所述v<sub>q</sub>在与所述类别C<sub>p</sub>对应的主题‑文档矩阵V<sub>p</sub>中查询与所述文档q相似的历史文档,所述主题‑文档矩阵V<sub>p</sub>中的每一列对应一个历史文档; 其中,所述词‑主题矩阵和所述主题‑文档矩阵V<sub>p</sub>是对各个历史文档按照不同类别进行组非负矩阵分解GNMFNC所得到的矩阵。 | ||
地址 | 100080 北京市海淀区中关村东路95号 |