发明名称 Computerized system of content classification, method of the content classification and method for creating the pre-defined classification
摘要 Przedmiotem wynalazku jest komputerowy system klasyfikacji treści przystosowany do akwizycji, przetwarzania i zapisywania danych, obejmujący hurtownię danych, interfejs użytkownika oraz serwer wyposażony w środki przystosowane do pobierania i przetwarzania treści dokumentów dostępnych w sieci komputerowej, ekstrakcji informacji adresowych innych dokumentów w sieci komputerowej z treści tych dokumentów i wykorzystywania tych informacji adresowych do automatycznego przeszukiwania sieci. Serwer jest ponadto wyposażony w stosowane kolejno: - filtr zakresu analizy dokumentów, - środki dla ekstrakcji danych identyfikujących obiekt, którego dotyczy przetwarzany dokument, - środki przystosowane do normalizacji słownikowej pobranej treści dokumentu, - środki przystosowane do selekcji słów kluczowych istotnych dla klasyfikacji obiektu, - środki przystosowane do grupowania słów kluczowych we frazy kluczowe, pozwalające uzyskać reprezentację obiektu opisywanego przez dokument za pomocą słów i fraz kluczowych, zapisywanych w hurtowni danych wraz z danymi identyfikującymi obiekt. Na serwerze przechowywana jest predefiniowana klasyfikacja obiektów opisywanych w dokumentach dostępnych w sieci komputerowej, obejmująca hierarchię klas klasyfikacji oraz słowa kluczowe specyficzne dla poszczególnych klas. Ponadto serwer jest wyposażony w - środki przystosowane do analizy statystyki występowania słów kluczowych i fraz kluczowych, - środki przystosowane do przypisywania słowom i frazom kluczowym wag zależnych od ich położenia w dokumencie pochodzenia, - środki przystosowane do ustalania klasyfikacji obiektu opisywanego przez dokument na podstawie występujących w nim słów i fraz kluczowych oraz ich wag. Przedmiotem wynalazku jest również sposób kompilacji i udostępniania użytkownikowi danych obiektów zaszeregowanych stosownie do klasyfikacji, w odpowiedzi na zapytanie użytkownika obejmujące słowa i frazy kluczowe oraz ich logiczne kombinacje, znamienny tym że uprzednio, na podstawie dostępnych w sieci komputerowej dokumentów konstruuje się reprezentacje obiektów w hurtowni danych w następujących etapach: - pobierania treści dokumentów z listy adresów, - odrzucania dokumentów nie mieszczących się w zakresie - ekstrakcji danych identyfikujących obiekt, którego dotyczy przetwarzany dokument, normalizacji słownikowej treści dokumentów, - selekcji słów kluczowych, - grupowania słów kluczowych i tworzenia fraz kluczowych, - zapisywania słów i fraz kluczowych w hurtowni danych wraz z danymi adresowymi oraz tym, że na podstawie słów i fraz kluczowych, ich wag oraz związków logicznych i słów kluczowych zawartych w predefiniowanej klasyfikacji ustala się klasyfikację obiektu. Przedmiotem wynalazku jest również sposób tworzenia predefiniowanej klasyfikacji przedsiębiorstw obejmującej hierarchiczny spis branż oraz zestawy słów kluczowych i ich związki logiczne definiujące przy
申请公布号 PL405818(A1) 申请公布日期 2015.05.11
申请号 PL20130405818 申请日期 2013.10.29
申请人 NOWOCZESNA FIRMA SPÓ&Lstrok,KA AKCYJNA 发明人 FARAFONOW W&Lstrok,ADYS&Lstrok,AW;KONIECZNY MARCIN
分类号 G06F17/30;G06F17/40;G06Q30/02 主分类号 G06F17/30
代理机构 代理人
主权项
地址