基于社交网络的训练语料集的构建方法和装置,申请号CN201410213819.6-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	基于社交网络的训练语料集的构建方法和装置
摘要	本发明公开了一种基于社交网络的训练语料集的构建方法和装置，所述方法包括：对于待构建的训练语料集所属的领域，获取社交网络中该领域的用户群体发布的文本内容；对于获取的每篇文本内容，对该篇文本内容进行分词，将分词后的各词语中与该领域的特征词库中的特征词相同的词语，作为该篇文本内容的特征词；并根据该篇文本内容的特征词，计算该篇文本内容与该领域的相关度；将与该领域的相关度大于预设的相关度阈值的文本内容，作为该领域的文本语料加入到该领域的训练语料集中。由于本发明得到的某个领域的训练语料集中的文本语料与该领域的相关度较高，因此，本发明可以提高社交网络中文本内容的分类准确度，并且可以节省人力。
申请公布号	CN104035968A	申请公布日期	2014.09.10
申请号	CN201410213819.6	申请日期	2014.05.20
申请人	微梦创科网络科技（中国）有限公司	发明人	李金奎;谌贻荣
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京市京大律师事务所 11321	代理人	张璐;方晓明
主权项	一种基于社交网络的训练语料集的构建方法，其特征在于，包括：对于待构建的训练语料集所属的领域，获取所述社交网络中该领域的用户群体发布的文本内容；对于获取的每篇文本内容，对该篇文本内容进行分词，将分词后的各词语中与该领域的特征词库中的特征词相同的词语，作为该篇文本内容的特征词；并根据该篇文本内容的特征词，计算该篇文本内容与该领域的相关度；将与该领域的相关度大于预设的相关度阈值的文本内容，作为该领域的文本语料加入到该领域的训练语料集中。
地址	100080 北京市海淀区彩和坊路6号7-10层

您可能感兴趣的专利

FLAME RETARDANT COMPOSITION OF POLYPHENYLENE ETHER,STYRENE RESIN AND PHOSPHORUS

LINEAR POLYARYLSULFONES HAVING FUNCTIONAL GROUPS THEREON

ANTIOZONANT COMPOSITION AND USE THEREOF IN NATURAL AND SYNTHETIC RUBBER COMPOSITIONS

PROCESS FOR PRODUCING CRIMPED POLYPROPYLENE FILAMENTS

HEXACHLOROCYCLOPENTADIENE ADDUCTS OF UNSATURATED AMIDES

NAILING AND LIKE GUNS

REMOVABLE WATCH BAND

ADJUSTABLE AIR GAP IN LIQUID QUENCHING OF MELT-SPUN FILAMENTS

ACCESSORY FOR MICROSCOPES FOR USE AS A TWO-BEAM PHOTOMETER

VALUE SELECTION SETTING MEANS

OPTICAL APPARATUS FOR MEASUREMENT OF A SPATIAL FUNCTION

LIGHTING SYSTEM

PROCEDE DE REGENERATION DE CATALYSEURS D'OXYDATION

PERMANENT MAGNET SYSTEM FOR A LOUDSPEAKER

DIGITAL ENCODING APPARATUS FOR THE SYNCHRONIZATION OF SEPARATE PICTURES AND SOUND RECORDS

ELECTRODE STRUCTURE FOR CONTROLLING ELECTRON FLOW WITH HIGH TRANSMISSION EFFICIENCY

CONTOUR PROJECTOR HAVING AN OPTICAL SYSTEM WHICH MOVES IN A VERTICAL DIRECTION TO DETERMINE THE VERTICAL DIMENSIONS OF A SPECIMEN

PHOTOGRAPHIC FLASHLAMP UNIT

ERROR TOLERANT ARITHMETIC LOGIC UNIT