发明名称 数据样本的类型识别方法及装置
摘要 本发明公开了一种数据样本的类型识别方法及装置。其中,该方法包括:对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理,得到多个簇,白样本为在指定业务场景中执行安全操作行为时所产生的数据样本,待识别异常样本为在指定业务场景中执行异常操作行为时所产生的数据样本;获取多个簇中的每个簇中白样本的占有率;将多个簇中占有率小于预设阈值的簇中的待识别异常样本判定为黑样本,将多个簇中占有率大于预设阈值的簇中的待识别异常样本判定为白样本。采用本发明,解决了相关技术中打标的黑样本难以获取以及从异常样本中提取黑样本的方法难以对新异常产生的黑样本进行识别的技术问题。
申请公布号 CN106469276A 申请公布日期 2017.03.01
申请号 CN201510512056.X 申请日期 2015.08.19
申请人 阿里巴巴集团控股有限公司 发明人 马冲
分类号 G06F21/56(2013.01)I 主分类号 G06F21/56(2013.01)I
代理机构 北京博浩百睿知识产权代理有限责任公司 11134 代理人 宋子良
主权项 一种数据样本的类型识别方法,其特征在于,包括:对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理,得到多个簇,所述白样本为在指定业务场景中执行安全操作行为时所产生的数据样本,所述待识别异常样本为在所述指定业务场景中执行异常操作行为时所产生的数据样本;获取所述多个簇中的每个簇中白样本的占有率;将所述多个簇中所述占有率小于预设阈值的簇中的所述待识别异常样本判定为黑样本,其中,所述黑样本为在指定业务场景中执行非安全操作行为时所产生的数据样本;将所述多个簇中所述占有率大于所述预设阈值的簇中的待识别异常样本判定为白样本。
地址 英属开曼群岛大开曼资本大厦一座四层847号邮箱