发明名称 |
非结构化数据处理方法及系统 |
摘要 |
本发明公开了一种非结构化数据处理方法及系统。该非结构化数据处理方法包括以下步骤:设置多个包括关键词的特征模板;分别使用各个特征模板扫描存储有多条非结构化数据的数据库,针对各条非结构化数据分别判断其中是否记载有和各个特征模板一致的内容,并将判断结果为是的特征模板作为各条非结构化数据匹配的特征模板记录;生成与该多条非结构化数据分别一一对应的多个模板向量,每个模板向量具有一一对应于该多个特征模板的多个维度。本发明的非结构化数据处理方法及系统,通过利用特征模板将非结构化数据处理成向量形式,使得后续的计算处理针对模板向量进行,降低了对于非结构化数据的数据分析所需要的计算资源和时间。 |
申请公布号 |
CN103761337B |
申请公布日期 |
2017.02.08 |
申请号 |
CN201410054773.8 |
申请日期 |
2014.02.18 |
申请人 |
上海锦恩信息科技有限公司 |
发明人 |
叶向维 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海弼兴律师事务所 31283 |
代理人 |
胡美强;王婧荷 |
主权项 |
一种非结构化数据处理方法,其特征在于,包括以下步骤:S<sub>1</sub>、设置多个特征模板,每个特征模板包括关键词;S<sub>2</sub>、分别使用各个特征模板扫描存储有多条非结构化数据的一数据库,针对各条非结构化数据分别判断其中是否记载有和各个特征模板一致的内容,并将判断结果为是的特征模板作为各条非结构化数据匹配的特征模板记录;S<sub>3</sub>、生成与该多条非结构化数据分别一一对应的多个模板向量,每个模板向量具有一一对应于该多个特征模板的多个维度,该多个维度中,各条非结构化数据匹配的特征模板对应的维度的标量值为1、不匹配的特征模板对应的维度的标量值为0;S<sub>4</sub>、读取待挖掘特征;S<sub>5</sub>、判断该多个特征模板中是否存在和该待挖掘特征一致的特征模板,若是则执行S<sub>6</sub>,若否则执行S<sub>7</sub>;S<sub>6</sub>、选取和该待挖掘特征一致的特征模板对该多个模板向量进行匹配,选取匹配成功的模板向量作为待输出向量,并执行S<sub>9</sub>;S<sub>7</sub>、生成一特征模板组合以表示该待挖掘特征,该特征模板组合为由逻辑运算符连接的若干特征模板;S<sub>8</sub>、采用该特征模板组合对该多个模板向量进行匹配,选取匹配成功的模板向量作为待输出向量,并执行S<sub>9</sub>;S<sub>9</sub>、选取和待输出向量对应的非结构化数据,并输出选取的非结构化数据。 |
地址 |
201308 上海市浦东新区芦潮港镇芦潮港路1758号1幢8326室 |