发明名称 一种生物样本完备性的评价方法
摘要 本发明提供一种生物样本完备性的评价方法,通过在储存子系统中保存样本实物和样本资料,在评分子系统中计算每个病例的实物完备性和资料完备性,以分别反映实物库存和信息库存,并将两者以二次函数的关系合并作为生物样本整体完备性的量化评价指标,最后在检索子系统中为用户提供按完备性排序的样本列表。本发明优先使用符合用户需求的低价值病例的样本,保留超出用户需求的高完备性的样本,提高了生物样本和样本库的利用效率。本发明的评分字段,其分值由该字段在病例中出现的次数计算而来,天然反映了相应病例的稀缺和重要程度,并且随着新样本的入库和资料的更新,评分指标的分值也随之更新,具备了客观、量化、全面、动态更新的优点。
申请公布号 CN102289601B 申请公布日期 2013.09.04
申请号 CN201110247951.5 申请日期 2011.08.24
申请人 浙江大学 发明人 葛维挺;黄彦钦;郑树;周小宇
分类号 G06F19/00(2011.01)I;G06F17/30(2006.01)I 主分类号 G06F19/00(2011.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 张法高;赵杭丽
主权项 一种生物样本完备性的评价方法,是在一个生物样本库系统中依次按照以下步骤实现的:(1)在储存子系统中保存样本实物和样本资料,在存储子系统中列出样本库中所有待评价病例为集合P,统计病例总数为N,列出与样本实物相关的字段Wi为集合S,列出与样本资料相关的字段Wi为集合D,统计病例集合中所有包含字段Wi的病例总数,表示为df(Wi);(2)在评分子系统中,针对集合S,计算字段Wi和病例p的相关性评分ScoreI(p,Wi),评分公式为: <mrow> <mi>ScoreI</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <mi>df</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <msqrt> <msub> <mi>&Sigma;</mi> <mrow> <mi>Wi</mi> <mo>&Element;</mo> <mi>S</mi> </mrow> </msub> <msup> <mrow> <mo>[</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <mi>df</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>]</mo> </mrow> <mn>2</mn> </msup> </msqrt> </mfrac> <mo>,</mo> </mrow>其中C(Wi,p)是字段Wi在病例p中出现的次数,k是一个0.01到1之间的常数,Wi∈S是与样本实物相关的集合S中的每个字段,然后将集合S中的所有Wi的评分相加,得到病例p的实物评分ScoreS(p,S),评分公式为: <mrow> <mi>ScoreS</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>Wi</mi> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <mi>ScoreI</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>(3)在评分子系统中,针对集合D,计算字段Wi和病例p的相关性评分ScoreI(p,Wi),评分公式为: <mrow> <mi>ScoreI</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <mi>df</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <msqrt> <msub> <mi>&Sigma;</mi> <mrow> <mi>Wi</mi> <mo>&Element;</mo> <mi>D</mi> </mrow> </msub> <msup> <mrow> <mo>[</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <mi>df</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>]</mo> </mrow> <mn>2</mn> </msup> </msqrt> </mfrac> <mo>,</mo> </mrow>其中C(Wi,p)是字段Wi在病例p中出现的次数,k是一个0.01到1之间的常数,Wi∈D是与样本资料相关的集合D中的每个字段,然后将集合D中的所有Wi的评分相加,得到病例p的资料评分ScoreD(p,D),评分公式为: <mrow> <mi>ScoreD</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>D</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>Wi</mi> <mo>&Element;</mo> <mi>D</mi> </mrow> </munder> <mi>ScoreI</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>(4)在评分子系统中将病例p的实物评分和资料评分基于二次函数合并作为最终的完备性评分Value(p),计算公式为:Value(p)=ScoreS(p,S)×ScoreD(p,D);(5)在储存子系统中按完备性评分高低从小到大对病例排序,同一病例所属样本的完备性评分相同,用户输入关键词搜索样本,检索子系统对符合要求的样本按对应病例的完备性评分高低从小到大顺序列出以供判断和选择。
地址 310027 浙江省杭州市西湖区浙大路38号