发明名称 一种从互联网非结构化文本提取道路交通信息方法
摘要 本发明提出了一种从互联网非结构化文本提取道路交通信息的方法。所述方法包括:定义道路交通信息的数据结构和道路交通信息描述特征词类型;由少量人工制定的基础提取模式扩展得到提取模式库;对输入的互联网非结构化文本预处理后生成特征词类型序列;根据特征词类型序列的相似度获取输入文本的匹配提取模式;利用匹配提取模式从互联网非结构化文本中提取道路交通信息的定位信息元素和类型信息元素;利用正则表达式和判断规则从输入文本中提取时间信息元素;由定位信息元素、类型信息元素和时间信息元素组合得到道路交通信息。利用本发明,可以对采集自互联网的非结构化文本进行实时处理,提取道路交通信息,丰富交通信息采集手段。
申请公布号 CN103886080B 申请公布日期 2017.01.25
申请号 CN201410115332.4 申请日期 2014.03.25
申请人 中国科学院地理科学与资源研究所 发明人 陆锋;仇培元;张恒才
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京科迪生专利代理有限责任公司 11251 代理人 成金玉
主权项 一种从互联网非结构化文本提取道路交通信息方法,其特征在于实现步骤如下:步骤1.定义道路交通信息的数据结构,便于以二维表的形式组织和管理道路交通信息,所述数据结构由信息元素和信息元素的具体元素属性组成,所述信息元素包括定位信息元素、类型信息元素和时间信息元素,所述定位信息元素包含的元素属性有中心线道路、起始道路、终止道路、起始方向和终止方向,所述类型信息元素包含的元素属性有交通事件类型,所述时间信息元素包含的元素属性有交通事件开始时间和交通事件结束时间;所述道路交通信息包括道路路况信息、道路交通限制信息、道路交通管制信息、道路交通事故信息、道路环境信息;步骤2.将在描述道路交通信息过程中起关键作用的词汇作为特征词,根据这些词汇在互联网非结构化文本中起到的语法作用,定义用于填充道路交通信息元素属性的特征词的类型,并按特征词类型构建交通专业词库,所述特征词类型具体包括道路名称词、附属定位词、方向描述词、介词、道路事件词和一般词;所述一般词指不包含在道路名称词、附属定位词、方向描述词、介词、道路事件词特征词类型中的词汇;所述互联网非结构化文本是指网页新闻、论坛帖子、博文日志、微博消息;步骤3.基于步骤1定义的道路交通信息的数据结构和步骤2定义的特征词类型,结合互联网非结构化文本中描述交通事件的语法结构特征和句法结构特征,人工制定基本提取模式,通过规则对基本提取模式进行扩展,得到提取模式库;所述提取模式包括特征词类型序列和元素属性序列两个部分;所述特征词类型序列是人们在互联网非结构化文本中描述交通事件时所用特征词的类型的先后顺序排列,提取模式中特征词类型序列的功能是判断互联网非结构化文本能否与该提取模式匹配;所述元素属性序列与特征词类型序列长度相同,元素属性序列中的序列项是特征词类型序列中相同位置序列项在道路交通信息中对应的元素属性,元素属性序列的功能是指导计算机将互联网非结构化文本出现的特征词映射至道路交通信息对应的元素属性中;步骤4.将采集的互联网非结构化文本作为输入文本,对输入文本进行预处理;所述预处理包括删除输入文本中的重复信息和对输入文本作中文分词,得到输入文本的词汇序列;步骤5.利用步骤2的交通专业词库识别步骤4所得词汇序列中出现的特征词,并按照特征词在输入文本中的先后顺序记录特征词的类型,生成输入文本的特征词类型序列,通过判断道路交通信息元素属性所需的特征词类型是否完整对输入文本进行过滤;步骤6.对输入文本断句,根据断句得到的句子集合,将步骤5所得输入文本的特征词类型序列分割成与句子集合对应的特征词类型序列集合,利用动态时间弯曲DTW距离,即Dynamic Time Warping距离度量该特征词类型序列集合中各特征词类型序列与提取模式库中各提取模式的特征词类型序列的相似度,选择相似度最高且小于给定阈值的提取模式作为该句子的匹配提取模式;步骤7.遍历输入文本的句子集合,若句子集合中的句子在步骤6取得匹配提取模式,则根据该匹配提取模式的元素属性序列将该句子中的特征词填充至对应的道路交通信息元素属性,生成该句子对应的道路交通信息;遍历完成后,判断所得道路交通信息的定位信息元素中中心线道路属性和类型信息元素中交通事件类型属性是否完整,如果不完整,则利用补充规则对道路交通信息缺失的定位信息元素中中心线道路属性或类型信息元素中交通事件类型属性进行填补;最后,得到输入文本已提取定位信息元素和类型信息元素的道路交通信息集合;步骤8.根据互联网非结构化文本中对时间的不同表达形式,人工制定提取年、月、日、时、分、秒时间要素数值的正则表达式集合,结合判断规则利用该正则表达式集合从输入文本中提取时间要素数值,将这些时间要素数值组合成交通事件开始时间元素属性和交通事件结束时间元素属性,得到道路交通信息的时间信息元素;步骤9.将步骤8提取的时间信息元素填充至步骤7得到的道路交通信息集合各条道路交通信息中,得到道路交通信息元素完整的道路交通信息集合。
地址 100101 北京市朝阳区大屯路甲11号