发明名称 |
面向稀疏样本的聚焦式Web信息抽取系统及方法 |
摘要 |
本发明提供一种面向稀疏样本的聚焦式Web信息抽取系统及方法,该面向稀疏样本的聚焦式Web信息抽取系统包括:网页交互模块,提供抽取模板定义和结构化抽取结果查阅服务;抽取引擎模块,提供包括相似网页获取、样本特征建模、特征选择和信息抽取的功能;数据服务模块,为系统的前后端提供关系型和非关系型数据服务。本发明能够依靠极少量的样本进行高效的信息抽取,将结构化的信息从不同样本所属领域中抽取出来。 |
申请公布号 |
CN105912633A |
申请公布日期 |
2016.08.31 |
申请号 |
CN201610216160.9 |
申请日期 |
2016.04.11 |
申请人 |
上海大学 |
发明人 |
朱文浩;郭心怡;刘懿霆;陈洁;徐钊;姚文心 |
分类号 |
G06F17/30(2006.01)I;G06K9/62(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海上大专利事务所(普通合伙) 31205 |
代理人 |
何文欣 |
主权项 |
一种面向稀疏样本的聚焦式Web信息抽取系统,其特征在于,包括:网页交互模块,提供抽取模板定义和结构化抽取结果查阅服务;抽取引擎模块,提供包括相似网页获取、样本特征建模、特征选择和信息抽取的功能;数据服务模块,为系统的前后端提供关系型和非关系型数据服务。 |
地址 |
200444 上海市宝山区上大路99号 |