摘要 |
1. Способ определения и оценки значимости слов, включающий в себя следующие этапы:вычисляют Документную Частоту ДЧ (DF) слова в классифицированных данных большого объема;выполняют совокупность одноаспектных оценок слова согласно ДЧ (DF) слова;выполняют многоаспектную оценку слова по результатам совокупности одноаспектных оценок для получения весового коэффициента важности слова.2. Способ по п.1, при котором на этапе вычисления ДЧ (DF) слова в классифицированных данных большого объема выполняют следующие действия:рассчитывают вектор ДЧ (DF) слова в каждой категории классифицированных данных большого объема;применяют сумму векторов ДЧ (DF) слова во всех категориях в качестве ДЧ (DF) слова во всех категориях.3. Способ по п.1, при котором одноаспектная оценка предусматривает определение одного или нескольких из следующих показателей: Инверсной Документной Частоты ИДЧ (IDF), Средней Инверсной Документной Частоты СИДЧ (AVAIDF), хи-квадрата, Прироста Информации ПИ (IG), Взаимной Информации ВИ (MI), Ожидаемой Перекрестной Энтропии ОПЭ (ЕСЕ), Энтропии ЭНТ (ENT) и Выборочного Предпочтения ВП (SELPRE).4. Способ по п.3, при котором при одноаспектной оценке слова используют показатель ПИ (IG) и выполняют следующие действия:распределяют все слова-кандидаты по диапазонам в соответствии со значениями ДЧ (DF) указанных слов;вычисляют значение ПИ (IG) слова на основе классифицированных данных, соответствующих диапазону слова.5. Способ по п.1, при котором на этапе многоаспектной оценки слова согласно результатам совокупности одноаспектных оценок для получения весового коэффициента важности слова выполняют следующие действия:распределяют слова-кандидат |