一种新闻网页内容的抽取方法,申请号CN201110444156.5-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种新闻网页内容的抽取方法
摘要	本发明新闻网页内容的抽取方法，该方法包括：先将页面解析成树结构，然后观察每个树节点，计算该节点及其子节点中纯文字数、长链接数和短链接数，并根据纯文字数占整个页面中的纯文字数的比例，长链接数和短链接数与纯文字数之间的比例，计算出哪个节点是最底层的包含正文的节点，经过关键词广告及版权声明处理器过滤，从而抽取出正文。
申请公布号	CN103136312B	申请公布日期	2016.08.31
申请号	CN201110444156.5	申请日期	2011.12.27
申请人	北京麦克斯泰科技有限公司	发明人	黄靖
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构		代理人
主权项	一种去除噪音信息的新闻网页内容抽取方法，其特征在于，该方法包括以下步骤：A.解析Html页面，将html转换成标准xml格式，并过滤掉非显示的标记；B.生成文档树结构(DOMTree)并遍历该页面包含的正文数，短链接数和长链接数；C.一层一层计算每个节点的权重，找到权重最大的节点，该节点就是包含正文的节点；其中，步骤C中权值计算方法为：C1计算当前节点下的正文数，长链接和短链接数；C2当前节点的正文数和整个页面正文数的比例是一个成正比的权值WEIGHT1；C3当前节点下的长链接数是一个成反比的权值WEIGHT2；C4当前节点的正文数与当前节点短连接和长链接数的和的比例是一个成正比的权值WEIGHT3；C5计算当前正文中包含的广告和版权信息的关键词出现的次数，它是一个成反比的权重值WEIGHT4。
地址	100081 北京市海淀区中关村南大街9号理工科技大厦818室

您可能感兴趣的专利

INNRETNING FOR VARIERING AV LENGDEBELASTNING PÅ LANGSTRAKTE KOMPONENTER

ГАЛАНТИН ПІКАНТНИЙ

СПОСІБ ОТРИМАННЯ ПАЛИВНИХ ГРАНУЛ

СИСТЕМА ПОПЕРЕДЖЕННЯ ПРО ПЕРЕВИЩЕННЯ ДОПУСТИМОЇ ШВИДКОСТІ РУХУ ТРАНСПОРТНОГО ЗАСОБУ

ФЕРУМ(ІІ)-2-(5-(ФЕНОКСИМЕТИЛ)-4-ФЕНІЛ-1,2,4-ТРИАЗОЛ-3-ІЛТІО)АЦЕТАТ, ЩО ВИЯВЛЯЄ АКТОПРОТЕКТОРНУ АКТИВНІСТЬ

ПРИСТРІЙ ЗАХИСТУ ЕЛЕКТРИЧНОЇ МЕРЕЖІ З ІЗОЛЬОВАНОЮ АБО КОМПЕНСОВАНОЮ НЕЙТРАЛЛЮ ВІД ОБРИВУ ПРОВОДУ

СПОСІБ ОДЕРЖАННЯ ПРЕБІОТИЧНОГО ПОРОШКУ З ЯБЛУК ТА КАБАЧКІВ

СПОСІБ ОДЕРЖАННЯ ТЕРНЕЗИТ-БЕЛІТ-КАЛЬЦІЙ-СУЛЬФОАЛЮМІНАТНОГО КЛІНКЕРУ

СПОСІБ ЛАЗЕРНОГО ЗВАРЮВАННЯ З ШИРОТНО-ІМПУЛЬСНОЮ МОДУЛЯЦІЄЮ ВИПРОМІНЮВАННЯ

СПОСІБ ВІДНЕСЕННЯ ДО ГРУПИ РИЗИКУ ПОРУШЕННЯ ФУНКЦІЇ ВУШКА ЛІВОГО ПЕРЕДСЕРДЯ У ХВОРИХ З ЕПІЗОДОМ ФІБРИЛЯЦІЇ ПЕРЕДСЕРДЬ НЕКЛАПАННОГО ПОХОДЖЕННЯ

ПРИСТРІЙ ДЛЯ ВИМІРЮВАННЯ ВИТРАТ ГАЗУ

КОМПОЗИЦІЙНИЙ БІОПРЕПАРАТ ДЛЯ ЛІКУВАННЯ ЗАПАЛЕННЯ ТКАНИН ПАРОДОНТА І КОРЕКЦІЇ АСОЦІЙОВАНИХ ГАСТРОДУОДЕНАЛЬНИХ РОЗЛАДІВ КИШЕЧНИКУ У ДІТЕЙ

СПОСІБ ОБРОБКИ ПОВЕРХНІ ДЛЯ ЗУПИНЕННЯ БРУДУ, ЕЛЕМЕНТ ПОВЕРХНІ ДЛЯ ЗУПИНЕННЯ БРУДУ ТА ПОВЕРХНЯ ДЛЯ ЗУПИНЕННЯ БРУДУ, ЗМОНТОВАНА З ЦИХ ЕЛЕМЕНТІВ

СОЛІ ОРГАНІЧНОГО АМІНУ ПОХІДНИХ АМІНОБЕНЗОЙНОЇ КИСЛОТИ І СПОСІБ ЇХ ОДЕРЖАННЯ

АРМАТУРНИЙ СТРИЖЕНЬ І СПОСІБ ЙОГО ВИРОБНИЦТВА

СПІЛЬНІ КРИСТАЛИ І СОЛІ ІНГІБІТОРІВ CCR3

СПОСІБ ХІРУРГІЧНОГО ЛІКУВАННЯ ДЕФОРМАЦІЙ ПРОКСИМАЛЬНОГО ВІДДІЛУ СТЕГНОВОЇ КІСТКИ У ДІТЕЙ

ФУТЕРІВКА БАРАБАННОГО МЛИНА

ШТАМ БАКТЕРІЙ BRADYRHIZOBIUM JAPONICUM, ЯКИЙ ХАРАКТЕРИЗУЄТЬСЯ ІНТЕНСИВНИМ РОСТОМ І ПІДВИЩЕНОЮ САПРОФІТНОЮ КОМПЕТЕНТНІСТЮ ТА РЕКОМЕНДОВАНИЙ ДЛЯ ІНОКУЛЯЦІЇ СОЇ

СПОСІБ ВИБОРУ ОПТИМАЛЬНОГО МАРШРУТУ ПЕРЕДАЧІ ДАНИХ У САМООРГАНІЗУЮЧИХ МЕРЕЖАХ