摘要 |
<p>I en fremgangsmåte for å identifisere og ekstrahere tekstinnhold i et dokument (webside) på World Wide Web (WWW), hvor dokumentet omfatter ulike typer innhold, avbildes dokumentet i ikke-overlappende deler og en lenketetthet for hver del ("chunk") beregnes, hvoretter ikke-lenket tekstinnhold i dokumentet kan ekstraheres.</p> |