发明名称 一种图文集合的可视化方法
摘要 一种图文集合的可视化方法,对含有图片的文本集合进行处理,以得到图文集合的特征词及特征词的权重、特征图片及特征图片的权重,然后利用特征词与特征图片对图文集合进行可视化;本发明同时提供了一种图文集合的可视化装置,包括:预处理模块,用于将待可视化的原始数据进行预处理,获得图文集合的特征词及特征词的权重、特征图片及特征图片的权重;可视化模块,用于利用上述结果数据进行信息可视化,呈现出图文集合的特征;本发明将图文集合的特征词及特征图片通过图形界面进行展示,从而达到使用户直观、快速地了解图文集合内容的目的。
申请公布号 CN103593337B 申请公布日期 2016.08.17
申请号 CN201310538293.4 申请日期 2013.11.04
申请人 清华大学 发明人 唐家渝;刘知远;孙茂松
分类号 G06F17/27(2006.01)I;G06K9/46(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 西安智大知识产权代理事务所 61215 代理人 贾玉健
主权项 一种图文集合的可视化方法,其特征在于,包括:对含有图片的文本集合进行处理,以得到图文集合的特征词及特征词的权重、特征图片及特征图片的权重;利用特征词与特征图片对图文集合进行可视化,规则是:a.整体分布呈椭圆形;b.特征词的权重越大,字体越大,位置越靠原点;c.图片的权重越大,位置越靠原点;d.紧邻图片的特征词颜色为图片的主色调;其中每张图片利用如下算法进行主色调的抽取:1)定义一个迭代次数上限M;2)随机在图中找N个点,取出它们的RGB值作为种子点;3)对图中的每个点找到一个RGB值和它最相近的种子点,并将图中的这个点加到RGB值最相近的种子点所在点群中;4)计算点群中种子点的平均RGB值,并将这个RGB值作为新的种子点;5)比较这个新的种子点的值是否和旧值相等,如果相等则种子点收敛完成进入第6)步,如果不等则继续执行第3)步,直至迭代次数达到M次,新的值指的是第4)步点群中种子点的平均RGB值,旧值指的是第3)步中的最相近种子点的RGB值;6)当种子点收敛完成或者迭代次数达到M次,对所有种子点所在点群的权重做一个排序,权重即其中包含点的个数;7)取出权重最高的种子点的值,作为图片的主色调。
地址 100084 北京市海淀区100084信箱82分箱清华大学专利办公室