发明名称 Method Apparatus And Computer-Readable Recording Medium with Program for Extracting Content with Web Page
摘要 <p>본 발명은 웹 페이지 내의 컨텐츠를 추출하기 위한 방법, 장치 및 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다. 본 발명은 기 설정된 피드(Feed)에서 추출된 아이템(Item) 정보의 URL 페이지가 수집 대상이 아닌 경우, 기 설정된 프로그램 또는 명령어를 이용하여 페이지를 구성하며, 구성된 페이지에서 상기 아이템 정보의 클루(Clue) 정보를 이용하여 상기 클루 정보를 포함하는 페이지만을 추적하는 제 1 페이지 추적부(Chase Page); 추적된 페이지에서 상기 클루 정보를 이용하여 기 설정된 추출 규칙에 따른 메인 컨텐츠(Main Content) 영역을 추출하는 컨텐츠 검출부(Content Detection); 피드 룰(Feed Rule) 파일을 읽어들여 해당 피드의 기존 분석 정보를 읽어들이고, 추출된 상기 메인 컨텐츠 영역 또는 상기 클루 정보와 비교하여, 부족하거나 잘못된 부분이 있는 경우, 상기 기존 분석 정보를 이용하여 상기 메인 컨텐츠 영역을 재조종하는 컨텐츠 리비젼부(Content Revision) 및 추출 또는 재조정된 상기 메인 컨텐츠를 클라이언트에게 전송하는 결과 전송부(Send Result)를 포함하는 것을 특징으로 하는 웹 페이지 내의 컨텐츠 추출을 위한 장치를 제공한다.</p>
申请公布号 KR101575113(B1) 申请公布日期 2015.12.09
申请号 KR20080100833 申请日期 2008.10.14
申请人 에스케이플래닛 주식회사 发明人 이준호
分类号 G06Q50/10 主分类号 G06Q50/10
代理机构 代理人
主权项
地址