发明名称 一种基于隐形狄利克雷模型的生物医学图像的标注算法
摘要 本发明提供了一种主要针对生物医学图像进行标注,在生物医学图像语料库中,每张图像都有一个对应的文本文件,结合这种特殊性,提出了一种基于LDA(隐形狄利克雷分配)的生物医学图像的标注算法,利用LDA从图像的说明文字中提取主题词,然后根据这些主题词从图像对应的文本文件中抽取上下文,最后再利用LDA对上下文进行建模,所得到的主题词就作为生物医学图像的最终标注,本发明的有益效果在于:针对生物医学图像进行标注,充分利用了数据集中图像所关联的说明文字和文本文件来挖掘图像的标注词语,准确性高,并且一次能生成多个标注词语。实现生物医学图像的准确标注后,可以使用关键词索引来查找相关的图像,方便快捷,符合人们文本检索惯。
申请公布号 CN104021222A 申请公布日期 2014.09.03
申请号 CN201410289320.3 申请日期 2014.06.26
申请人 深圳信息职业技术学院;盛建强 发明人 盛建强;张运生;李华忠
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鼎佳达知识产权代理事务所(普通合伙) 11348 代理人 侯蔚寰
主权项 一种基于隐形狄利克雷模型的生物医学图像的标注算法,其特征在于,包括: 构建训练集模块,LDA模型的数据集是所有生物医学图像的说明文字,我们需要从每幅生物医学图像所对应的文本文件中抽取说明文字(caption)节点的内容,即该图像的说明文字,所有图像的说明文字集合在一起,构成了LDA模型的训练样本集;同时我们将主题个数、文档‑主题分布和主题‑单词分布的狄利克雷先验参数设置为经验值,所述文本文件一般为XML格式;LDA训练模块,LDA训练模块是通过所述的构建训练集模块中的训练样本集对LDA模型进行训练,以生成文档‑主题分布和主题‑单词分布;主题词抽取模块,主题词抽取模块用于对每幅生物医学图像的说明文字(caption)进行LDA建模,然后从所建模型(主题分布和单词分布)中抽取所有的主题词;对于一副未标注图像,利用LDA训练模块所产生的LDA模型对该图像的说明文字(caption)进行建模,然后从建模的结果(主题分布和单词分布)中抽取所有的单词作为该图像的主题词,加入到主题词集合中;主题词精炼模块,主题词精炼模块用于对抽取模块所产生的主题词集合进行优化,得到最精简、最有效的主题词集合;在LDA模型对图像的说明文字(caption)建模的结果中,如果主题‑单词分布中某个主题单词的概率为零,将该单词从主题词集合中剔除;如果图像的说明文字中不包含某个主题词,将该单词从主题词集中剔除;如果主题词集合中含有重复的单词,将重复的单词剔除,只保留一个;经过这些优化操作,从而得到更精炼的主题词集合;索引上下文句子模块,索引上下文句子模块用于从图像的文本文件中索引出与精炼主题词集合中的主题词关联密切的句子集;索引上下文句子模块利用LUCENE作为检索工具,对精炼主题词集合中的每一个单词,将其作为查询条件,检索出所有包含该主题词的句子;索引过程完成后,对于每一个主题词,都有一个句子集与之关联;上下文生成模块,上下文生成模块是从每个主题词所对应的句子集中选取一个最密切的句子,然后集合所有最密切的句子,就构成了图像的上下文(context);上下文生成模块的核心工作就是为每个主题词选取最密切的句子,所有密切句子组成的集合就是上下文;标注产生模块,标注产生模块仍利用LDA训练模块得到的LDA模型对图像的上下文进行建模,得到图像的主题分布和单词分布,然后将主题‑单词分布中每个单词的概率乘以对应主题的概率,所得结果作为这个单词的权值;按照权值从大到小的顺序将所有单词排序,选取前几个单词作为生物医学图像的标注词;一种基于隐形狄利克雷模型的生物医学图像的标注算法的具体步骤如下: (a)开始; (b)构建训练集模块,选取一部分生物医学图像构成训练集,并从每幅图像的文本文件中提取说明文字(caption)节点中的说明文字,组成LDA模型的训练数据集;同时,给定主题数、文档‑主题分布的先验参数、主题‑单词分布的先验参数; (c)LDA训练模块,采用Gibbs采样算法对LDA模型进行训练;先抽样出单词对应的主题的分布,然后进一步计算文档‑主题分布和主题‑单词分布; (d)主题词抽取模块,对一副未标注图像,利用训练的LDA模型进行建模,选取所有的主题词,组成主题词集合; (e)主题词精炼模块,对主题词集合进行优化,去除其中重复的单词、概率为零的单词和不在说明文字中单词,从而得到精炼主题词集合; (f)索引上下文句子模块,对一个主题词,用lucece从图像的文本文件中检索出包含该单词的所有句子,组成一个句子集,记作该主题词的对应句子集; (g)如果所有的主题词都有对应句子集,则进入(h),否则进入(f); (h)上下文生成模块,从每个主题词的对应句子集中选取最密切的句子,组成该图像的上下文; (i)用(c)训练的LDA模型对上下文进行建模,然后将主题‑单词分布中的每个单词的概率乘以对应主题的概率,得到的结果作为单词的权值;按降序排序所有单词,选取前几个作为图像的最终标注;(j)若所有未标注图像都进行了标注,进入(k),否则跳到(d);(k)结束。
地址 518000 广东省深圳市龙岗区龙翔大道2188号