摘要 |
<p>ウェブページから主要コンテンツを抽出することは、ウェブページ上のアイテムを識別してクラス分けすることと、候補のリストを作成することと、候補のスコアを計算することと、トップスコア候補を選択することと、トップスコア候補に対してクリーンアップ処理を行うこととを含む。候補のスコアは、サイズに基づいて分類されたパラグラフ及び画像の数に応じて変化してもよい。CJK(語−日本語−韓国語)のテキストのワールド長は、そのテキスト中の句読点に基づいて判定してもよい。候補のスコアは、コンテナ及びピースの数に基づいて修正してもよく、コンテナはタグ「body」、「div」、「td」、「li」、「article/section」に関連したウェブページ要素であり、ピースは他の候補を含まない候補である。候補のスコアは、テキスト及びリンクの密度に対応する比に基づいて修正してもよい。</p> |