发明名称 一种基于语言模型的应用协议识别方法及系统
摘要 本发明涉及一种基于语言模型的应用协议识别方法及系统。该方法包括离线阶段和在线阶段;离线阶段包括:将混杂的原始网络数据报文划分为目标应用协议的数据报文集合和非目标应用协议的数据报文集合;构建目标应用协议的语言模型;提取已经标记类别的网络数据报文的协议关键字,作为网络数据报文的分类特征;对离线数据进行学训练,获得目标应用协议的检测模型;在线阶段包括:根据离线阶段得到的语言模型提取待测网络数据报文的协议关键字作为其分类特征;对待测网络数据报文的协议类别属性进行判别,并输出判别结果。本发明能够充分挖掘网络消息报文中潜在的协议语义信息,在线网络协议流量分类过程中具有高准确率和强鲁棒性。
申请公布号 CN105390132A 申请公布日期 2016.03.09
申请号 CN201510653901.5 申请日期 2015.10.10
申请人 中国科学院信息工程研究所 发明人 张永铮;王一鹏;云晓春
分类号 G10L15/08(2006.01)I;G10L15/06(2013.01)I;G10L15/02(2006.01)I;G10L15/30(2013.01)I;G10L25/54(2013.01)I 主分类号 G10L15/08(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 冯艺东
主权项 一种基于语言模型的应用协议识别方法,其特征在于,包括离线阶段和在线阶段;所述离线阶段包括如下步骤:1)将混杂的原始网络数据报文划分为两类:一类是目标应用协议的数据报文集合,另一类是非目标应用协议的数据报文集合;2)以步骤1)得到的目标应用协议的数据报文集合作为输入,构建目标应用协议的语言模型;3)利用步骤2)得到的语言模型,提取已经标记类别的网络数据报文的协议关键字,该协议关键字作为网络数据报文的分类特征;4)利用步骤3)得到的网络数据报文的分类特征,采用有监督或无监督学习方法对离线数据进行学习训练,获得目标应用协议的检测模型;所述在线阶段包括如下步骤:5)根据离线阶段中步骤2)得到的语言模型,提取待测网络数据报文的协议关键字作为其分类特征;6)根据步骤5)得到的待测网络数据报文的分类特征和离线阶段中步骤4)得到的检测模型,对待测网络数据报文的协议类别属性进行判别,并输出判别结果。
地址 100093 北京市海淀区闵庄路甲89号