主权项 |
一种生物样本完备性的评价方法,是在一个生物样本库系统中依次按照以下步骤实现的:(1)在储存子系统中保存样本实物和样本资料,在存储子系统中列出样本库中所有待评价病例为集合P,统计病例总数为N,列出与样本实物相关的字段Wi为集合S,列出与样本资料相关的字段Wi为集合D,统计病例集合中所有包含字段Wi的病例总数,表示为df(Wi);(2)在评分子系统中,针对集合S,计算字段Wi和病例p的相关性评分ScoreI(p,Wi),评分公式为: <mrow> <mi>ScoreI</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>×</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <mi>df</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <msqrt> <msub> <mi>Σ</mi> <mrow> <mi>Wi</mi> <mo>∈</mo> <mi>S</mi> </mrow> </msub> <msup> <mrow> <mo>[</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>×</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <mi>df</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>]</mo> </mrow> <mn>2</mn> </msup> </msqrt> </mfrac> <mo>,</mo> </mrow>其中C(Wi,p)是字段Wi在病例p中出现的次数,k是一个0.01到1之间的常数,Wi∈S是与样本实物相关的集合S中的每个字段,然后将集合S中的所有Wi的评分相加,得到病例p的实物评分ScoreS(p,S),评分公式为: <mrow> <mi>ScoreS</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>Σ</mi> <mrow> <mi>Wi</mi> <mo>∈</mo> <mi>S</mi> </mrow> </munder> <mi>ScoreI</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>(3)在评分子系统中,针对集合D,计算字段Wi和病例p的相关性评分ScoreI(p,Wi),评分公式为: <mrow> <mi>ScoreI</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>×</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <mi>df</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <msqrt> <msub> <mi>Σ</mi> <mrow> <mi>Wi</mi> <mo>∈</mo> <mi>D</mi> </mrow> </msub> <msup> <mrow> <mo>[</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>×</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <mi>df</mi> <mrow> <mo>(</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>]</mo> </mrow> <mn>2</mn> </msup> </msqrt> </mfrac> <mo>,</mo> </mrow>其中C(Wi,p)是字段Wi在病例p中出现的次数,k是一个0.01到1之间的常数,Wi∈D是与样本资料相关的集合D中的每个字段,然后将集合D中的所有Wi的评分相加,得到病例p的资料评分ScoreD(p,D),评分公式为: <mrow> <mi>ScoreD</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>D</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>Σ</mi> <mrow> <mi>Wi</mi> <mo>∈</mo> <mi>D</mi> </mrow> </munder> <mi>ScoreI</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>Wi</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>(4)在评分子系统中将病例p的实物评分和资料评分基于二次函数合并作为最终的完备性评分Value(p),计算公式为:Value(p)=ScoreS(p,S)×ScoreD(p,D);(5)在储存子系统中按完备性评分高低从小到大对病例排序,同一病例所属样本的完备性评分相同,用户输入关键词搜索样本,检索子系统对符合要求的样本按对应病例的完备性评分高低从小到大顺序列出以供判断和选择。 |