К РЕШЕНИЮ ЗАДАЧИ КАТЕГОРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ С ПОМОЩЬЮ НЕЧЁТКОЙ КЛАССИФИКАЦИИ : научное издание | Научно-инновационный портал СФУ

К РЕШЕНИЮ ЗАДАЧИ КАТЕГОРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ С ПОМОЩЬЮ НЕЧЁТКОЙ КЛАССИФИКАЦИИ : научное издание

Перевод названия: CATEGORIZATION OF TEXT DOCUMENTS USING FUZZY CLASSIFICATION METHODS

Тип публикации: статья из журнала

Год издания: 2014

Ключевые слова: data mining, categorization, Fuzzy classification, constrained optimization, genetic algorithm, категоризация, нечёткий классификатор, условная оптимизация, генетический алгоритм

Аннотация: Решается задача выбора алгоритма классификации для задачи категоризации текстовых документов. Существуют выборки, характеризующие каждый текстовый документ с позиции сумм весов термов, содержащихся в нём, посчитанных различными метриками: бинарной, CW, C-Values, TF-IDF в различных вариациях. Таким образом, для каждого документа имеется атрибутов, где - число категорий, - число метрик. Для каждой категории термов в документе подсчитаны суммарные значения метрик, по которым нужно сделать вывод о принадлежности документа к тому или иному классу. Эту задачу можно рассматривать как задачу обучения с учителем, поскольку предоставлена обучающая выборка. Предложен подход по её решению, включающий в себя этапы фаззификации атрибутов, построения базы нечётких правил, дефаззификации полученных правил в численные соотношения, позволяющие сделать однозначный вывод о принадлежности документа к классу. На этапе формирования базы нечётких правил ставится задача условной оптимизации, которая может быть решена генетическим алгоритмом условной оптимизации. Task given is to choose classification algorithm in order to solve the problem of categorisation of text documents. Sample data characterizes each text document basing on sums of terms weights, assigned to different categories. The weights are received from applying different metrics such as binary, C-Values, TF-IDF in variations. Therefore, for every document attributes are found in sample data, where - stands for number of categories, m - for number of metrics. For every category of terms in a document sums of terms'' metrics are calculated, which should be used as attributes in the classification task. This classification task can be treated as a supervised learning task due to existing training set. Approach is proposed to use three stages such as fuzzification of attributes, finding fuzzy rules set, defuzzification of rules found in order to achieve numerical procedures that allow to uniquely assign each document to one of given categories. Second stage can be treated as a constrained optimization problem which can be solved using genetic algorithm for constrained optimization.

Ссылки на полный текст

Издание

Журнал: Решетневские чтения

Выпуск журнала: Т. 2, 18

Номера страниц: 131-133

ISSN журнала: 19907702

Место издания: Красноярск

Издатель: Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева

Персоны

  • Хаустов И.А. (Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева)
  • Панфилов И.А. (Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева)

Вхождение в базы данных

Информация о публикациях загружается с сайта службы поддержки публикационной активности СФУ. Сообщите, если заметили неточности.

Вы можете отметить интересные фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.