发明名称 医院门户网站门诊专家信息抽取系统
摘要 本发明公开了一种医院门户网站门诊专家信息抽取系统,对于查询接口的发现和筛选,采用静态发现和动态筛选相结合的方式,静态发现利用制定的规则,发现web页面中的查询表单;对于无法判断为查询接口的查询表单,采用动态筛选的方法,根据服务器的返回结果进行二次判断。在本发明中,通过建立领域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填写,从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询,节省了系统的开销。对于信息抽取时,噪声信息的过滤,提出了一种网页分块重要度模型,该模型根据网页分块的内容特征和空间特征,通过一定的算法为其分配重要程度值,重要程度值高的分块,为待抽取内容。
申请公布号 CN104281714A 申请公布日期 2015.01.14
申请号 CN201410591272.3 申请日期 2014.10.29
申请人 南通大学 发明人 张远鹏;王理;钱旦敏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京瑞弘专利商标事务所(普通合伙) 32249 代理人 徐激波
主权项 一种医院门户网站门诊专家信息抽取系统,其特征在于:主要包括如下2个步骤:步骤一、查询接口的发现和筛选:采用静态发现和动态筛选相结合的方式:静态发现:主要是利用制定的规则,发现web页面中的查询表单;但并非所有查询表单都是所需要的查询接口,因此,对于无法判断为查询接口的查询表单,采用动态筛选的方法,即通过“二次探测查询”的方式,根据服务器的返回结果进行二次判断:通过建立领域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填写,从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询,节省系统的开销;步骤二、对于信息抽取过程中,噪声信息的过滤:对于信息抽取时,噪声信息的过滤,采用网页分块重要度模型,所述模型根据网页分块的内容特征和空间特征,通过重要程度值的计算算法为其分配重要程度值,重要程度值高的分块,为待抽取内容。
地址 226000 江苏省南通市崇川区启秀路19号