Алгоритмы концептуального моделирования и классификации текстов в корпусе тувинского языка : научное издание | Научно-инновационный портал СФУ

Алгоритмы концептуального моделирования и классификации текстов в корпусе тувинского языка : научное издание

Перевод названия: Algorithms of conceptual modeling and text classification in the tuvan language corpus

Тип публикации: статья из журнала

Год издания: 2017

Ключевые слова: корпус языка, анализ формальных понятий, концептуальные модели текстов, алгоритм классификации, алгоритмы снижения размерности контекстов

Аннотация: Корпус языка это информационно-лингвистическая система, основанная на собрании оцифрованных текстов некоторого языка. На сегодняшний день корпус тувинского языка включает официально-деловые документы и произведения тувинской художественной литературы. Работы по расширению корпуса тувинского языка и углублению уровня обработки текстов продолжаются. Они приводят к необходимости решения задач анализа естестественно-языковых текстов. Основными из этих задач являются классификация по прецедентам и концептуальное моделирование. Для их решения в статье используется алгебраический подход, называемый анализом формальных понятий. Предлагаются алгоритмы и программы для построения концептуальной модели коллекции литературных произведений и решения задачи бинарной классификации по прецедентам. Указаны приемы снижения вычислительной сложности рассматриваемых алгоритмов. В работе представлены результаты вычислительных экспериментов, подтверждающие результативность предложенных приемов по снижению сложности вычислений. Приведены результаты концептуального моделирования и бинарной классификации произведений тувинского фольклора. The corpus is an information-linguistic system based on the collection of digitized texts in some language. Nowadays, the corpus of Tuvan language includes official and business documents and Tuvan literary works. Expanding of the Tuvan corpus and deepening of the text processing level are continuening. These works lead to the tasks of a natural language text analysis. The main tasks is classification by precedents and conceptual modeling. In order to solve these problems, the paper uses an algebraic approach, which is called the analysis of formal concepts. The paper proposes algorithms and programs for constructing a conceptual model of literary works collection and solving the problem of a binary classification by precedents. There are methods of reducing computational complexity of the considered algorithms. The paper presents the results of computational experiments, which confirm the effectiveness of the proposed methods for reducing computation complexity. Finally, there are the results of conceptual modeling and binary classification of Tuvan folklore works.

Ссылки на полный текст

Издание

Журнал: Программные продукты и системы

Выпуск журнала: 3

Номера страниц: 487-495

ISSN журнала: 0236235X

Место издания: Тверь

Издатель: Закрытое акционерное общество Научно-исследовательский институт Центрпрограммсистем

Персоны

  • Быкова В.В. (Сибирский Федеральный университет)
  • Монгуш Ч.М. (Сибирский федеральный университет, Тувинский государственный университет)

Вхождение в базы данных

Информация о публикациях загружается с сайта службы поддержки публикационной активности СФУ. Сообщите, если заметили неточности.

Вы можете отметить интересные фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.