发明名称 |
一种基于lognormal模型的文本测试数据集生成方法 |
摘要 |
本发明公开了一种基于lognormal模型的文本测试数据集生成方法,包括以下步骤:1)对真实文本数据集按词进行切分,再将切分得到的词按出现频率进行统计,然后根据统计的结果建立语料库;2)根据步骤1)建立的语料库中词出现的频率的大小对词进行排名,再通过最大似然估计将词排名的结果拟合得到lognormal模型参数,根据lognormal模型参数建立lognormal模型;3)基于步骤2)建立的lognormal模型根据蒙特卡洛方法生成随机数,再将随机数作为词的排名,得该随机数对应的词的内容;4)重复步骤3),得所有词的内容,然后根据所有词的内容生成文本测试数据集。本发明能够准确的生成文本测试数据集。 |
申请公布号 |
CN105260277A |
申请公布日期 |
2016.01.20 |
申请号 |
CN201510718187.3 |
申请日期 |
2015.10.29 |
申请人 |
西安交通大学 |
发明人 |
董小社;王龙翔;张兴军;朱正东;陈衡 |
分类号 |
G06F11/22(2006.01)I |
主分类号 |
G06F11/22(2006.01)I |
代理机构 |
西安通大专利代理有限责任公司 61200 |
代理人 |
陆万寿 |
主权项 |
一种基于lognormal模型的文本测试数据集生成方法,其特征在于,包括以下步骤:1)对真实文本数据集按词进行切分,再将切分得到的词按出现频率进行统计,然后根据统计的结果建立语料库;2)根据步骤1)建立的语料库中词出现的频率的大小对词进行排名,再通过最大似然估计将词排名的结果拟合得到lognormal模型参数,根据lognormal模型参数建立lognormal模型;3)基于步骤2)建立的lognormal模型根据蒙特卡洛方法生成随机数,再将随机数作为词的排名,得该随机数对应的词的内容;4)重复步骤3),得所有词的内容,然后根据所有词的内容生成文本测试数据集。 |
地址 |
710049 陕西省西安市咸宁西路28号 |