发明名称 ウェブページからの主要コンテンツの抽出
摘要 <p>ウェブページから主要コンテンツを抽出することは、ウェブページ上のアイテムを識別してクラス分けすることと、候補のリストを作成することと、候補のスコアを計算することと、トップスコア候補を選択することと、トップスコア候補に対してクリーンアップ処理を行うこととを含む。候補のスコアは、サイズに基づいて分類されたパラグラフ及び画像の数に応じて変化してもよい。CJK(語−日本語−韓国語)のテキストのワールド長は、そのテキスト中の句読点に基づいて判定してもよい。候補のスコアは、コンテナ及びピースの数に基づいて修正してもよく、コンテナはタグ「body」、「div」、「td」、「li」、「article/section」に関連したウェブページ要素であり、ピースは他の候補を含まない候補である。候補のスコアは、テキスト及びリンクの密度に対応する比に基づいて修正してもよい。</p>
申请公布号 JP2015502603(A) 申请公布日期 2015.01.22
申请号 JP20140541166 申请日期 2012.11.07
申请人 发明人
分类号 G06F17/21;G06F17/30 主分类号 G06F17/21
代理机构 代理人
主权项
地址