发明名称 超大量文本信息数据处理方法
摘要 一种超大量文本信息数据处理方法,首先对不同来源的文稿文件进行人工分割,在每篇文稿的标题与正文之间、正文与下一文稿标题之间均插入一分割符,然后将上述格式的文稿导入数据库中,最终用数据库文件形式发布。本发明的优点在于:可对多种不同来源的文稿进行快速编辑,处理的信息量大,对信息的深度处理更容易,检索准确快速。
申请公布号 CN1343947A 申请公布日期 2002.04.10
申请号 CN00124537.6 申请日期 2000.09.19
申请人 北京新华国信科贸有限责任公司 发明人 胡天木
分类号 G06F17/21 主分类号 G06F17/21
代理机构 北京市汇泽专利商标事务所 代理人 赵军
主权项 一种超大量文本信息数据处理的方法,其特征在于分 为以下步骤: ①对不同来源的文稿文件进行人工分割,在每篇文稿 的标题与正文之间、正文与下一文稿标题之间均插入一分 割符,形成如下格式:&lt;分割符&gt;标题1&lt;分割符&gt;正文1 &lt;分割符&gt;标题2&lt;分割符&gt;正文2&lt;分割符&gt;标题3&lt;分 割符&gt;正文3…的格式,其中分割符可采用文稿中不会出现 的特殊字符; ②入库,将上述格式的文稿导入数据库中,导入后, 数据库的格式为: <tables id="table1" num="001"><table width="274"><tgroup cols="2"><colspec colname="c001" colwidth="48%" /><colspec colname="c002" colwidth="52%" /><thead><row><entry morerows="1"> 标题 </entry><entry morerows="1"> 正文 </entry></row></thead><tbody><row><entry morerows="1"> 标题1 </entry><entry morerows="1"> 正文1 </entry></row><row><entry morerows="1"> 标题2 </entry><entry morerows="1"> 正文2 </entry></row><row><entry morerows="1"> 标题3 </entry><entry morerows="1"> 正文3 </entry></row><row><entry morerows="1"> … </entry><entry morerows="1"> … </entry></row></tbody></tgroup></table></tables>③最终用数据库文件形式发布。
地址 100081北京市海淀区学院南路68号