发明名称 为选定上下文构造词典
摘要 本文提出了与构造针对限定上下文的词典有关的各种技术。社交媒体文本被获取,其中所述社交媒体文本具有与其对应的上下文数据。社交媒体文本被编码以形成编码文本(Unicode格式),并且上下文数据被指派给该编码文本。通过基于诸如位置之类的上下文数据对编码文本进行过滤来形成针对限定上下文的文本语料库。单词或短语在文本语料库中出现的频率被用于标识要被包括在词典中的单词或短语。
申请公布号 CN106462579A 申请公布日期 2017.02.22
申请号 CN201480077830.2 申请日期 2014.10.15
申请人 微软技术许可有限责任公司 发明人 D·常;J·李;Z·刘;C·C·B·麦克
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海专利商标事务所有限公司 31100 代理人 蔡悦
主权项 一种计算系统,包括:处理器;以及存储器,所述存储器包括由所述处理器执行的词典生成器系统,所述词典生成器系统被配置成生成用于上下文文本的词典,所述词典生成器系统被配置成基于混合语言单词或混合语言短语在所述上下文文本中出现的频率将混合语言单词或者混合语言短语中的至少一个包括在所述词典中。
地址 美国华盛顿州