发明名称 |
一种基于文本挖掘技术提取断路器故障特征信息的方法 |
摘要 |
本发明公开的基于文本挖掘技术提取断路器故障特征信息的方法,包括:获取断路器故障信息,采用向量空间模型表示方法将其转化为计算机可识别的结构化信息,建立断路器故障文本;比较所述断路器故障文本内断路器故障信息的相似度,将所述断路器故障信息进行分类;统计词频,抽取高频词;结合供电企业信息系统中断路器采购记录资料以及高压断路器国家技术标准,自定义分词词库;基于词典匹配的方法,对分词后的断路器故障文本进行词性标注;将标注信息抽取和高频词汇补充相结合,识别和提取各类型故障的表征词;建立断路器故障表征信息与部件之间以及部件与部件之间的关联关系。有利于发现和提取导致故障发生的深层原因,为预防断路器故障提供依据。 |
申请公布号 |
CN105677833A |
申请公布日期 |
2016.06.15 |
申请号 |
CN201610004282.1 |
申请日期 |
2016.01.06 |
申请人 |
云南电网有限责任公司电力科学研究院 |
发明人 |
黄绪勇;王闸;孙鹏;王秀利;耿苏杰 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京弘权知识产权代理事务所(普通合伙) 11363 |
代理人 |
逯长明;许伟群 |
主权项 |
一种基于文本挖掘技术提取断路器故障特征信息的方法,其特征在于,所述方法主要包括:获取断路器故障信息,采用向量空间模型表示方法将其转化为计算机可识别的结构化信息,建立断路器故障文本;比较所述断路器故障文本内断路器故障信息的相似度,将所述断路器故障信息进行分类;统计词频,抽取高频词;结合供电企业信息系统中断路器采购记录资料以及高压断路器国家技术标准,自定义分词词库;基于词典匹配的方法,对分词后的断路器故障文本进行词性标注;将标注信息抽取和高频词汇补充相结合,识别和提取各类型故障的表征词;建立断路器故障表征信息与部件之间、以及部件与部件之间的关联关系;其中:分词词库包括供电企业所采用断路器的型号、部件标准名称、生产厂家以及常用的故障特征描述词等。 |
地址 |
650217 云南省昆明市经济技术开发区云大西路105号 |