发明名称 Web视频页面的复杂命名实体的抽取方法及其系统
摘要 本发明涉及Web视频页面的复杂命名实体的抽取方法及系统,方法包括:步骤1,对于Web视频页面集合中的每个Web视频页面,从Web视频页面中抽取有效文本信息,有效文本信息组成视频文本,所有视频文本组成训练集合;步骤2,对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词;步骤3,从训练集合中提取出同特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从候选命名实体中选择对应的复杂命名实体。本发明能够不需要经过长时间的模型训练而从Web视频页面中提取复杂命名实体。
申请公布号 CN101625695B 申请公布日期 2012.07.04
申请号 CN200910091375.2 申请日期 2009.08.20
申请人 中国科学院计算技术研究所 发明人 郑刚;张勇东;郭俊波
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京律诚同业知识产权代理有限公司 11006 代理人 祁建国;梁挥
主权项 一种Web视频页面的复杂命名实体的抽取方法,其特征在于,步骤1,为每个站点设置信息抽取模板,对于Web视频页面集合中的每个Web视频页面的HTML文本内容构建DOM树,由所述Web视频页面所属站点的信息抽取模板和所述Web视频页面的DOM树,从所述Web视频页面中抽取有效文本信息,所述有效文本信息组成视频文本,所有视频文本组成训练集合;步骤2,对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同所述引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词;步骤3,从训练集合中提取出同所述特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从所述候选命名实体中选择对应的复杂命名实体。
地址 100080 北京市海淀区中关村科学院南路6号