平行网页获取方法及装置,申请号CN201310174218.4-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	平行网页获取方法及装置
摘要	一种平行网页获取方法及装置，属于文本信息处理领域，所述方法包括：使用HTML结构信息实现对平行网站中平行网页的同步递归访问，使用URL命名模式优化遍历平行网站的路径，对候选平行网页，使用分类器进行判定，对判定为平行网页的网页对，学其URL对应的命名模式，抽取平行网页对中的双语文本和指向的下级候选平行网页链接对，利用学到的URL模式构建候选平行网页链接对优先队列；对是否应该终止平行网页发现进行判定，最终完成对一个平行网站中的平行网页的发现和双语文本的挖掘，本发明相应地提供了获取装置，本发明结合URL命名模式及HTML结构信息，实现了高效准确的平行网页发现和获取，同时提高了处理速度，减少了带宽消耗。
申请公布号	CN103258032A	申请公布日期	2013.08.21
申请号	CN201310174218.4	申请日期	2013.05.10
申请人	清华大学	发明人	刘奇;刘洋;孙茂松
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	西安智大知识产权代理事务所 61215	代理人	贾玉健
主权项	一种平行网页获取方法，其特征在于，包括：使用HTML结构信息实现对平行网站中平行网页的同步递归访问，使用URL模式优化遍历平行网站的路径；对同步访问的候选平行网页对，使用分类器进行判定，对判定为平行网页的网页对，学习其URL对应的命名模式，使用基于HTML标记序列对齐的技术抽取平行网页对中的双语文本和下级候选网页链接对，利用学习到的URL命名模式构建候选平行网页链接对优先队列；对是否应该终止平行网页发现进行判定，最终完成对一个平行网站中的平行网页的发现和双语文本的挖掘。
地址	100084 北京市海淀区100084信箱82分箱清华大学专利办公室

您可能感兴趣的专利

TOUGHENED POLYESTER COMPOSITION.

新型双刷交错式电动牙刷

指甲修磨器

一种插嵌组合式地板

零插入力连接器

多层间隔式吸音体

方便多用途梳子

冲压式吊灯挂架

Superconductor magnetic shield.

Low temperature air separation process.

Test device to analyse fluids.

Transport system between textile machines, in particular between ring spinning machines and winding machines.

Process control method and control system.

Device for exchanging a printing plate.

DEVICE AND PROCESS FOR CARRYING OUT APPLICATION OPERATIONS.

Launcher control system for surface launched active radar missiles.

Process and apparatus for producing liquid crystal panel.

Improvements in or relating to laundry machines and/or methods of controlling the same.

Process for preparation of polymer particles and toner particles.

Sewing machine.