发明名称 |
一种基于文档名称识别的备份文档的方法 |
摘要 |
本发明提供一种基于文档名称识别的备份文档的方法,包括如下步骤:S1,收集待备份文档的语料;S2,制定文档的初步特征模版;S3,建立低层随机场模型:根据所述初步特征模板,以字为切分粒度,对语料进行标注形成第一标注语料;S4,建立高层随机场模型:制定复合特征模板并读取第一标注语料,根据所述复合特征模板,以词为切分粒度,对所述第一标注语料进行标注形成第二标注语料;S5,通过CRF工具包对所述第二标注语料进行识别,获得待备份文档的名称;S6,在存储器上建立不同名称的空间,根据获得的待备份文档的名称将待备份文档存储到与名称与该待备份文档的名称对应的空间中。本发明可以对待备份文档实现高效、有序的管理。 |
申请公布号 |
CN102929916A |
申请公布日期 |
2013.02.13 |
申请号 |
CN201210349068.1 |
申请日期 |
2012.09.19 |
申请人 |
无锡华御信息技术有限公司 |
发明人 |
耿振民;安锡文 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海光华专利事务所 31219 |
代理人 |
余明伟 |
主权项 |
一种基于文档名称识别的备份文档的方法,其特征在于,至少包括如下步骤:S1,收集待备份文档的语料;S2,以字表或后缀为特征词典,制定文档的初步特征模版;S3,建立低层随机场模型:根据所述初步特征模板,以字为切分粒度,对所述语料进行标注形成第一标注语料;S4,建立高层随机场模型:制定复合特征模板并读取第一标注语料,根据所述复合特征模板,以词为切分粒度,对所述第一标注语料进行标注形成第二标注语料;S5,通过CRF工具包对所述第二标注语料进行识别,获得待备份文档的名称;S6,在存储器上建立不同名称的空间,根据获得的待备份文档的名称将待备份文档存储到名称与该待备份文档的名称对应的空间中。 |
地址 |
214081 江苏省无锡市滨湖区锦溪路100号恒华科技园20号楼4楼 |