发明名称 一种基于关联规则的重特大交通事故致因识别方法
摘要 本发明公开了一种基于关联规则的重特大交通事故致因识别方法,该方法从我国历年道路交通事故年报中提取重特大交通事故数据,并将提取的事故数据划分为人、车、路、环境以及其他因素共五类事故变量。在此基础上,该方法运用关联规则分析,设定重特大事故关联分析中支持度、置信度以及提升度的合理阈值,基于Apriori算法,计算重特大交通事故的二项集、三项集以及四项集规则关联规则,并结合输出规则的支持度、置信度以及提升度进行分析,识别出重特大道路交通事故常见致因和事故发生机理。本发明降低了随机性和决策人员主观判断影响,可以有效进行重特大交通事故致因识别、分析重特大交通事故机理。
申请公布号 CN106383920A 申请公布日期 2017.02.08
申请号 CN201611063554.1 申请日期 2016.11.28
申请人 东南大学 发明人 徐铖铖;包杰;刘攀;吴家明
分类号 G06F17/30(2006.01)I;G06N5/02(2006.01)I;G06N5/04(2006.01)I;G06Q50/26(2012.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 柏尚春
主权项 一种基于关联规则的重特大交通事故致因识别方法,其特征在于,该方法包括以下步骤:1)采集历年重特大交通事故信息,统计驾驶人、车辆、道路以及环境四方面的事故致因信息,将四方面事故致因信息合计丢失度超过20%的事故信息剔除;2)根据所述步骤1)中采集到的重特大交通事故信息,将每起事故信息中的文本信息编码为驾驶人、车辆、道路、环境、其他共五个维度的事故变量:I<sub>1</sub>,I<sub>2</sub>,I<sub>3</sub>,I<sub>4</sub>,I<sub>5</sub>,每个维度的事故变量下面又划分为若干个子变量:I<sub>11</sub>,I<sub>12</sub>,I<sub>13</sub>,I<sub>14</sub>,...;3)根据下式计算重特大交通事故关联规则A→B的支持度Support(A→B):<maths num="0001"><math><![CDATA[<mrow><mi>S</mi><mi>u</mi><mi>p</mi><mi>p</mi><mi>o</mi><mi>r</mi><mi>t</mi><mrow><mo>(</mo><mi>A</mi><mo>&RightArrow;</mo><mi>B</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>#</mo><mrow><mo>(</mo><mrow><mi>A</mi><mo>&cap;</mo><mi>B</mi></mrow><mo>)</mo></mrow></mrow><mi>N</mi></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001163381520000011.GIF" wi="818" he="123" /></maths>其中N代表重特交通事故的样本总数,#(A∩B)代表重特大交通事故中事故致因A和事故致因B同时发生的频次;对于重特大交通事故关联规则A→B,A称为规则前件,B称为规则后件;根据下式计算重特大交通事故关联规则A→B的置信度Confidence(A→B),即在规则前件发生的条件下,规则后件发生的条件概率:<maths num="0002"><math><![CDATA[<mrow><mi>C</mi><mi>o</mi><mi>n</mi><mi>f</mi><mi>i</mi><mi>d</mi><mi>e</mi><mi>n</mi><mi>c</mi><mi>e</mi><mrow><mo>(</mo><mi>A</mi><mo>&RightArrow;</mo><mi>B</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>S</mi><mi>u</mi><mi>p</mi><mi>p</mi><mi>o</mi><mi>r</mi><mi>t</mi><mrow><mo>(</mo><mi>A</mi><mo>&RightArrow;</mo><mi>B</mi><mo>)</mo></mrow></mrow><mrow><mi>S</mi><mi>u</mi><mi>p</mi><mi>p</mi><mi>o</mi><mi>r</mi><mi>t</mi><mrow><mo>(</mo><mi>A</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001163381520000012.GIF" wi="982" he="120" /></maths>其中,Support(A)为事故致因A的支持度,即由事故致因A引起的事故占事故样本总数的比例;根据下式计算重特大交通事故关联规则A→B的提升度Lift(A→B),即用于反映规则前件和规则后件之间的相互依赖程度:<maths num="0003"><math><![CDATA[<mrow><mi>L</mi><mi>i</mi><mi>f</mi><mi>t</mi><mrow><mo>(</mo><mi>A</mi><mo>&RightArrow;</mo><mi>B</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>S</mi><mi>u</mi><mi>p</mi><mi>p</mi><mi>o</mi><mi>r</mi><mi>t</mi><mrow><mo>(</mo><mi>A</mi><mo>&RightArrow;</mo><mi>B</mi><mo>)</mo></mrow></mrow><mrow><mi>S</mi><mi>u</mi><mi>p</mi><mi>p</mi><mi>o</mi><mi>r</mi><mi>t</mi><mrow><mo>(</mo><mi>A</mi><mo>)</mo></mrow><mo>&times;</mo><mi>S</mi><mi>u</mi><mi>p</mi><mi>p</mi><mi>o</mi><mi>r</mi><mi>t</mi><mrow><mo>(</mo><mi>B</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001163381520000013.GIF" wi="982" he="120" /></maths>其中,Support(B)为事故致因B的支持度,即由事故致因B引起的事故占事故样本总数的比例;4)设定支持度、置信度和提升度的最小阈值,根据所述步骤3)得到的关联规则的支持度、置信度和提升度,将同时满足这三个参数最小阈值的关联规则选出,作为重特大交通事故致因分析的对象;5)对所述步骤4)中确定的作为重特大交通事故致因分析对象的关联规则,统计规则的前件和后件中出现的事故致因项,对事故致因项出现的次数进行排序,选取排在前10%的事故致因项作为重特大交通事故的常见致因。
地址 210096 江苏省南京市四牌楼2号