发明名称 电子渠道应用上的FAQ识别系统及方法
摘要 本发明提供一种电子渠道应用上的FAQ识别系统及方法,包括FAQ分词模块、检索出多候选模块、同义词扩展模块、自学模块;FAQ分词采用电子渠道上专有词典进行要素词分词;根据要素词计算,得到多候选;在计算过程中,采用特定的电子渠道同义词辅助准确计算;最后是离线通过自学模块对日志进行标注。本发明形成专有字典。对增值业务划分要素词。分为:业务要素词、操作要素词、特殊要素词等。同时支持词性扩展;检索时,侧重于业务要素词检索;同义词也根据词性划分,多组同义词见不传递。使得提高识别率时,多候选中至少出现与用户输入存在相同词;自学中,知识更新,通过资源升级工具,对比出差异后,提交给运营商知识库人员审核后,线上更新。
申请公布号 CN103049548B 申请公布日期 2016.08.10
申请号 CN201210579361.7 申请日期 2012.12.27
申请人 科大讯飞股份有限公司 发明人 徐伟;沈明花;周正友;张磊;江涛;聂小林
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京科迪生专利代理有限责任公司 11251 代理人 杨学明
主权项 一种电子渠道应用上的FAQ识别系统,其特征在于:包括如下模块:FAQ分词模块,对模板和输入短信进行分词得到模板特征向量和输入短信特征向量,该模块采用前向、后向分词两种方法,将两种方法得到的分词结果合并,去掉相同的结果,同时保留两者不同的结果,所述的去掉相同的结果同时保留两者不同的结果的具体含义为去掉两种分词方法所得的分词结果中冗余部分;检索出多候选模块,该模块用以计算输入短信特征向量与每一条模板特征向量的相似度得分,选出得分最高的若干候选项回复内容,推送给用户;同义词扩展模块,将可进行扩展的词依次换为该词的同义词得到同义词替换后的输入短信特征向量,交由检索出多候选模块进行处理;自学习模块,根据前一日局方提供的问答库、当日局方提供的问答库将线下问答库进行升级,从而实现动态更新线下问答库;其中,所述检索出多候选模块计算输入短信特征向量与模板特征向量的相似度得分的具体算法为:每个句子的特征向量的维数由字典中词的个数决定,每一维的值是该维对应的词在该句子中的贡献值,该词在该句中不出现,则认为该维值为0;输入短信特征向量a与模板特征向量b的相似度得分计算公式为向量夹角余弦值计算公式:(a•b)/(|a|*|b|);所述的自学习模块根据前一日局方提供的问答库、当日局方提供的问答库将线下问答库进行升级,从而实现动态更新线下问答库的具体更新步骤如下:首先对比当日局方问答对与前一日局方问答对变化情况,若当日局方在某主题名称style下新增了问题Question,首先判断新增问题Question标注的主题名称是否与线下问答库中标注的主题名称相同,若相同,线下问答库不做更改,若不同,则调整线下问答库中该主题名称对应的所有问答对;若当日局方没有新增问题Question,而是删除了部分问题Question,首先判断该问题对应的主题名称style是否删除,若删除则将线下问答库中的该主题名称style及其问答对全部删除;若该主题名称style仍然保留,判断其下的问题是否一半以上发生变动,若是,将标注的问答对提交局方确认,否则,以局方为准更改线下问答库,其中:局方指的是运营商; Style为问答对中的主题名称。
地址 230088 安徽省合肥市高新开发区望江西路666号