发明名称 一种基于lognormal模型的文本测试数据集生成方法
摘要 本发明公开了一种基于lognormal模型的文本测试数据集生成方法,包括以下步骤:1)对真实文本数据集按词进行切分,再将切分得到的词按出现频率进行统计,然后根据统计的结果建立语料库;2)根据步骤1)建立的语料库中词出现的频率的大小对词进行排名,再通过最大似然估计将词排名的结果拟合得到lognormal模型参数,根据lognormal模型参数建立lognormal模型;3)基于步骤2)建立的lognormal模型根据蒙特卡洛方法生成随机数,再将随机数作为词的排名,得该随机数对应的词的内容;4)重复步骤3),得所有词的内容,然后根据所有词的内容生成文本测试数据集。本发明能够准确的生成文本测试数据集。
申请公布号 CN105260277A 申请公布日期 2016.01.20
申请号 CN201510718187.3 申请日期 2015.10.29
申请人 西安交通大学 发明人 董小社;王龙翔;张兴军;朱正东;陈衡
分类号 G06F11/22(2006.01)I 主分类号 G06F11/22(2006.01)I
代理机构 西安通大专利代理有限责任公司 61200 代理人 陆万寿
主权项 一种基于lognormal模型的文本测试数据集生成方法,其特征在于,包括以下步骤:1)对真实文本数据集按词进行切分,再将切分得到的词按出现频率进行统计,然后根据统计的结果建立语料库;2)根据步骤1)建立的语料库中词出现的频率的大小对词进行排名,再通过最大似然估计将词排名的结果拟合得到lognormal模型参数,根据lognormal模型参数建立lognormal模型;3)基于步骤2)建立的lognormal模型根据蒙特卡洛方法生成随机数,再将随机数作为词的排名,得该随机数对应的词的内容;4)重复步骤3),得所有词的内容,然后根据所有词的内容生成文本测试数据集。
地址 710049 陕西省西安市咸宁西路28号