发明名称 | 超大量文本信息数据处理方法 | ||
摘要 | 一种超大量文本信息数据处理方法,首先对不同来源的文稿文件进行人工分割,在每篇文稿的标题与正文之间、正文与下一文稿标题之间均插入一分割符,然后将上述格式的文稿导入数据库中,最终用数据库文件形式发布。本发明的优点在于:可对多种不同来源的文稿进行快速编辑,处理的信息量大,对信息的深度处理更容易,检索准确快速。 | ||
申请公布号 | CN1343947A | 申请公布日期 | 2002.04.10 |
申请号 | CN00124537.6 | 申请日期 | 2000.09.19 |
申请人 | 北京新华国信科贸有限责任公司 | 发明人 | 胡天木 |
分类号 | G06F17/21 | 主分类号 | G06F17/21 |
代理机构 | 北京市汇泽专利商标事务所 | 代理人 | 赵军 |
主权项 | 一种超大量文本信息数据处理的方法,其特征在于分 为以下步骤: ①对不同来源的文稿文件进行人工分割,在每篇文稿 的标题与正文之间、正文与下一文稿标题之间均插入一分 割符,形成如下格式:<分割符>标题1<分割符>正文1 <分割符>标题2<分割符>正文2<分割符>标题3<分 割符>正文3…的格式,其中分割符可采用文稿中不会出现 的特殊字符; ②入库,将上述格式的文稿导入数据库中,导入后, 数据库的格式为: <tables id="table1" num="001"><table width="274"><tgroup cols="2"><colspec colname="c001" colwidth="48%" /><colspec colname="c002" colwidth="52%" /><thead><row><entry morerows="1"> 标题 </entry><entry morerows="1"> 正文 </entry></row></thead><tbody><row><entry morerows="1"> 标题1 </entry><entry morerows="1"> 正文1 </entry></row><row><entry morerows="1"> 标题2 </entry><entry morerows="1"> 正文2 </entry></row><row><entry morerows="1"> 标题3 </entry><entry morerows="1"> 正文3 </entry></row><row><entry morerows="1"> … </entry><entry morerows="1"> … </entry></row></tbody></tgroup></table></tables>③最终用数据库文件形式发布。 | ||
地址 | 100081北京市海淀区学院南路68号 |