发明名称 HTML5 Apparatus and method for collecting and analysing HTML5 documents based a distributed parallel processing
摘要 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치 및 방법이 제공된다. 상기 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치는, Root URL 정보를 제1 데이터베이스에 저장하는 인젝터(injector) 모듈, 상기 제1 데이터베이스로부터 상기 Root URL 정보를 제공받아 수집 대상 URL 리스트를 생성하고, 상기 수집 대상 URL 리스트를 제2 데이터베이스에 저장하는 제너레이터(generator) 모듈, 상기 제2 데이터베이스로부터 상기 수집 대상 URL 리스트를 제공받아 상기 수집 대상 URL 리스트에 대응되는 웹 페이지로부터 컨텐츠를 추출하고, 상기 컨텐츠를 상기 제2 데이터베이스에 저장하는 페처(fetcher) 모듈, 상기 제2 데이터베이스로부터 상기 컨텐츠를 제공받아 상기 컨텐츠의 내용을 파싱하여 파싱 결과 정보를 생성하고, 상기 파싱 결과 정보를 상기 제2 데이터베이스에 저장하는 파싱(parsing) 모듈, 상기 파싱 모듈로부터 상기 파싱 결과 정보를 제공받아 상기 웹 페이지의 문서 타입이 HTML5인지 판단하는 필터(filter) 모듈, 및 상기 웹 페이지의 문서 타입이 HTML5인 경우에만 상기 컨텐츠에 포함된 HTML 코드의 취약점(vulnerability)을 분석하는 취약점 분석 모듈을 포함하되, 상기 취약점 분석 모듈은 상기 컨텐츠를 복수의 서브 컨텐츠로 스플릿(split)하고, 상기 서브 컨텐츠에 대해서 키워드와 속성을 추출하고, 상기 키워드 및 상기 속성의 빈도수를 연산하여 상기 컨텐츠의 취약점을 분석한다.
申请公布号 KR101650316(B1) 申请公布日期 2016.08.23
申请号 KR20150009712 申请日期 2015.01.21
申请人 한국인터넷진흥원 发明人 김환국;정종훈;배한철;추현록;장웅;오상환;윤수진
分类号 G06F9/38;G06F17/30;G06F21/57 主分类号 G06F9/38
代理机构 代理人
主权项
地址