一种提取网页内容的方法及装置,申请号CN201610835405.6-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种提取网页内容的方法及装置
摘要	本申请公开了一种提取网页内容的方法及装置。利用主题元素的文本内容与网页中标题页面块的内容的关联关系，以及根据标题页面块与各页面块的相对位置，可以在各页面块中确定正文页面块，而不是仅仅考虑网页中各页面块的文本密度，从而过滤掉大部分无关信息，并提高了确定正文页面块的准确率，自正文页面块提取正文的准确性也得以提高。
申请公布号	CN106446139A	申请公布日期	2017.02.22
申请号	CN201610835405.6	申请日期	2016.09.20
申请人	微梦创科网络科技（中国）有限公司	发明人	鄢军
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京国昊天诚知识产权代理有限公司 11315	代理人	黄熊
主权项	一种提取网页内容的方法，其特征在于，包括:根据网页的代码中的主题元素的文本内容，确定所述网页中的标题页面块；根据所述网页中的各页面块与所述标题页面块的相对位置，在各页面块中确定正文页面块；从所述正文页面块中提取所述网页的正文。
地址	100193 北京市海淀区东北旺西路中关村软件园二期（西扩）N-1、N-2地块新浪总部科研楼2层

您可能感兴趣的专利

Methods and devices useful for analyzing color medical images

Toilet detergent dispenser

CUSTOMIZABLE DOOR HANGER AND PEEPHOLE

SEARCH MACRO SUGGESTIONS RELEVANT TO SEARCH QUERIES

VEHICLE HEALTH MONITORING ARCHITECTURE FOR DIAGNOSTICS AND PROGNOSTICS AS A SERVICE IN AN E-ENTERPRISE

INSPECTION SYSTEM AND INSPECTION METHOD

HYDROCARBON CONVERSION PROCESS

UNSOLICITED COMMUNICATION MITIGATION

Remote Control Method of an Electronic Device by a Portable Communication Device

NARROW-PROFILE LANCING DEVICE

ARRANGEMENT FOR THE REGULATION OF A GAS STREAM

ROTARY ATOMIZING HEAD, ROTARY ATOMIZATION COATING APPARATUS, AND ROTARY ATOMIZATION COATING METHOD

Methods of Treating Dermatological Disorders and Inducing Interferon Biosynthesis With Shorter Durations of Imiquimod Therapy

INTEGRALLY-WOVEN THREE-LAYER HEATING TEXTILE

PROBABILISTIC NATURAL LANGUAGE PROCESSING USING A LIKELIHOOD VECTOR

READY ACCESS TO UNIFORM RESOURCE IDENTIFIERS THAT ARE ASSOCIATED WITH TELEVISION CONTENT

LIGHT-EMITTING DEVICE, METHOD FOR MANUFACTURING SAME, MOLDED BODY AND SEALING MEMBER

APPARATUS FOR SHIELDING INTEGRATED CIRCUIT DEVICES

MANAGING HOST APPLICATION PRIVILEGES