一种在网络上提取近义词的方法及系统,申请号CN200710304564.4-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种在网络上提取近义词的方法及系统
摘要	本发明涉及一种在网络上提取近义词的方法，包括获取网页上各反向链接的锚文本，将所述锚文本两两对比，分别去除重叠的词语，将剩余的词语组成近义词集合，基于所述近义词集合提取近义词。获取上述剩余词语在所述锚文本中的出现频次，所述各反向链接父网页的Rank值，及该父网页所属主域的Rank值，根据上述数值分别计算上述剩余词语中各个词语对的近义概率，选取近义概率超过预设阈值的词语对作为近义词。同时，本发明还提供一种在网络上提取近义词的系统。本发明解决现有技术中近义词提取的广度和精度都较低的问题，本发明提取的近义词具有较高的广度和精度。
申请公布号	CN101226532B	申请公布日期	2012.10.03
申请号	CN200710304564.4	申请日期	2007.12.28
申请人	腾讯科技(北京)有限公司	发明人	禹荣凌;刘云峰
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京派特恩知识产权代理事务所(普通合伙) 11270	代理人	张颖玲;王黎延
主权项	一种在网络上提取近义词的方法，其特征在于，包括：获取网页上各反向链接的锚文本；计算所述锚文本的权重，去除权重低于预置数值的锚文本；其中，对于子页面的反向链接锚文本，所述锚文本权重为与该子网页属于同主域的父网页的个数、该子网页不属于同主域的父网页的个数分别乘以各自权重系数后之和；将锚文本两两对比，分别去除重叠的词语；将剩余的词语组成近义词集合，基于所述近义词集合提取近义词；其中，如果网页A使用锚文本S链接网页B，则网页A为父网页，网页B为子网页，链接对于网页A为正向链接，对于网页B为反向链接。
地址	100089 北京市海淀区海淀大街38号银科大厦16层

您可能感兴趣的专利

OIL PAN STRUCTURE FOR ENGINE

MOTION VECTOR SEARCHING CIRCUIT FOR PREDICTIVE ENCODING BETWEEN MOTION COMPENSATING FRAMES

SCROLL TYPE COMPRESSOR

METHOD OF MOUNTING ELECTRONIC COMPONENT

RECORDING BODY USING SEAMLESS BELT AS SUBSTRATE

WAVEGUIDE TYPE OPTICAL BRANCHING ELEMENT

DEVELOPING DEVICE

MANUFACTURE OF COMPOSITE MOLDED FORM AND INTERMEDIATE BLANK THEREOF

MANUFACTURE OF FIBER-REINFORCED RESIN EAVE GUTTER

METHOD OF CUTTING RAW CERAMICS AND ULTRA-WHETTING PARTICULATE ROTATING BLADE

DIMER LE X(DEFUCOSYL Y 2;III3 FUCV 3 FUCNLC 6 CER) AND ITS ANALOGUE BIO-ORGANIC SYNTHESIS

FUSED PROTEIN, AND METHOD FOR PRODUCING PEPTIDE OR PROTEIN

SEMICONDUCTOR DEVICE

PROCESSING METHOD AND PROCESSING DEVICE FOR PHOTOSENSITIVE PLANOGRAPHIC PRINTING PLATE

CAMERA WITH ZOOM LENS

SHAKING MECHANISM AND SHAKING CULTURE SYSTEM

DISTRIBUTION LINE CARRIER SYSTEM

METHOD FOR FORMING BRIGHT FACE ON ALUMINUM STOCK

METHOD FOR FIXING WIRE ROD WINDING END PART AND DEVICE THEREOF