摘要 |
분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치 및 방법이 제공된다. 상기 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치는, Root URL 정보를 제1 데이터베이스에 저장하는 인젝터(injector) 모듈, 상기 제1 데이터베이스로부터 상기 Root URL 정보를 제공받아 수집 대상 URL 리스트를 생성하고, 상기 수집 대상 URL 리스트를 제2 데이터베이스에 저장하는 제너레이터(generator) 모듈, 상기 제2 데이터베이스로부터 상기 수집 대상 URL 리스트를 제공받아 상기 수집 대상 URL 리스트에 대응되는 웹 페이지로부터 컨텐츠를 추출하고, 상기 컨텐츠를 상기 제2 데이터베이스에 저장하는 페처(fetcher) 모듈, 상기 제2 데이터베이스로부터 상기 컨텐츠를 제공받아 상기 컨텐츠의 내용을 파싱하여 파싱 결과 정보를 생성하고, 상기 파싱 결과 정보를 상기 제2 데이터베이스에 저장하는 파싱(parsing) 모듈, 상기 파싱 모듈로부터 상기 파싱 결과 정보를 제공받아 상기 웹 페이지의 문서 타입이 HTML5인지 판단하는 필터(filter) 모듈, 및 상기 웹 페이지의 문서 타입이 HTML5인 경우에만 상기 컨텐츠에 포함된 HTML 코드의 취약점(vulnerability)을 분석하는 취약점 분석 모듈을 포함하되, 상기 취약점 분석 모듈은 상기 컨텐츠를 복수의 서브 컨텐츠로 스플릿(split)하고, 상기 서브 컨텐츠에 대해서 키워드와 속성을 추출하고, 상기 키워드 및 상기 속성의 빈도수를 연산하여 상기 컨텐츠의 취약점을 분석한다. |