发明名称 |
基于搜索的无词边界标记语言的分词方法以及装置 |
摘要 |
本发明提供了一种基于搜索的用于无词边界标记语言文本的分词方法和装置。根据本发明,将包括至少一个片段的该文本的一个片段提供给至少一个搜索引擎;通过该至少一个搜索引擎对该一个片段进行搜索,并返回搜索结果;根据返回的搜索结果的至少一部分选取该一个片段的分词方式。本发明更好地解决了无词边界标记语言的分词问题,克服了现有技术在灵活性、依赖于字典的覆盖度、可以获得的训练数据语料库、处理新词汇等方面的局限。 |
申请公布号 |
CN101261623A |
申请公布日期 |
2008.09.10 |
申请号 |
CN200710086030.9 |
申请日期 |
2007.03.07 |
申请人 |
国际商业机器公司 |
发明人 |
王欣靖;秦勇;刘文 |
分类号 |
G06F17/27(2006.01);G06F17/30(2006.01) |
主分类号 |
G06F17/27(2006.01) |
代理机构 |
北京市金杜律师事务所 |
代理人 |
冯谱 |
主权项 |
1. 一种基于搜索的用于无词边界标记语言文本的分词方法,包括:a.将包括至少一个片段的该文本的一个片段提供给至少一个搜索引擎;b.通过该至少一个搜索引擎对该一个片段进行搜索,并返回搜索结果;c.根据返回的搜索结果的至少一部分选取该一个片段的分词方式。 |
地址 |
美国纽约阿芒克 |