一种基于最小编辑距离的半结构化文本匹配方法,申请号CN201410257734.8-传众专利搜索

发明名称	一种基于最小编辑距离的半结构化文本匹配方法
摘要	本发明属于自然语言处理领域，提出一种基于最小编辑距离的半结构化文本匹配方法。该方法包括如下步骤：一、对数据进行预处理；二、离线训练，确定对数似然率算法和左右熵算法阈值；三、结合这两种算法，在线为待评测的半结构化文本中非结构化文本抽取多词表达集合；四、利用抽取的多词表达集合，加上原评测文本中的结构化串，得到该文本的基于多词表达集合的文本表达；五、利用基于最小编辑距离的半结构化文本匹配方法，计算输入的半结构化文本和待匹配的半结构化文本的匹配度；六、以特征集合的相似度来衡量文本的匹配度，输出排序结果(Top‑N)。利用本发明实施例，能够提高半结构化文本的匹配准确度，具有很大的实用价值。
申请公布号	CN104008187B	申请公布日期	2017.02.01
申请号	CN201410257734.8	申请日期	2014.06.11
申请人	北京邮电大学	发明人	赵宇;高升;郭军
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构		代理人
主权项	一种基于最小编辑距离的半结构化文本匹配方法，其特征在于，包括以下步骤：⑴对数据进行预处理，把半结构化文本分成两部分：结构化文本和非结构化文本，并对结构化文本进行分词处理；⑵离线训练：根据对数似然率算法和左右熵算法，抽取训练数据的非结构化文本部分中的多词表达，来确定对数似然率算法和左右熵算法的阈值；⑶根据对数似然率算法和左右熵算法，并利用离线训练出的对数似然率算法和左右熵算法的阈值，在线地为每一个待测试的半结构化文本中非结构化文本抽取一个多词表达集合；⑷利用上一步抽取的多词表达集合，再加上这些文本中的原结构化串，得到该文本的基于多词表达集合的文本表达，用多词表达集合和结构化字符串来表征文本；⑸利用基于最小编辑距离的半结构化文本匹配方法，计算输入的半结构化文本和待匹配的半结构化文本的相似度；⑹以特征集合的相似度来衡量文本的相似度，对计算出的相似度按从大到小排序，输出排序结果，最靠前表示相似度最强，最靠后表示相似度最弱。
地址	100876 北京市海淀区西土城路10号