发明名称 |
搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法 |
摘要 |
本发明公开了一种搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法。该方法根据汉字异体字字表,采用分层匹配的思想,实现了在搜索引擎中,各种东亚中文文字字体之间、当前常用文字和古文之间、不同版古文字体之间的异体字之间的匹配检索。采用此方法,在检索时只要输入异体字中的任意一种,信息中包含其它异体字的信息都会被命中。本发明很好的解决了当前各种东亚中文文字字体之间、当前常用文字和古文之间、不同版古文字体之间的转换问题,使得搜索引擎更能准确的检索出用户需要的信息,而不必考虑各种异体字之间的转换问题。 |
申请公布号 |
CN1786956A |
申请公布日期 |
2006.06.14 |
申请号 |
CN200510127958.8 |
申请日期 |
2005.12.09 |
申请人 |
王宏源 |
发明人 |
冯建康;王宏源;赵锋 |
分类号 |
G06F17/30(2006.01) |
主分类号 |
G06F17/30(2006.01) |
代理机构 |
|
代理人 |
|
主权项 |
1、一种搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法。该方法根据汉字异体字字表,采用分层匹配的思想,实现了在搜索引擎中异体字之间的匹配检索。这些异体字包括同一个字在各种东亚表意文字里的不同形体,在各种版本的古文中的不同形体。在检索时只要输入异体字中的任意一种,信息中包含其它异体字的信息都会被命中。 |
地址 |
100020北京市朝阳区朝外小庄新街大院12号楼901室 |