Применение методов тематического моделирования для идентификации групп интернет-ресурсов с целью снижения риска киберугроз : научное издание | Научно-инновационный портал СФУ

Применение методов тематического моделирования для идентификации групп интернет-ресурсов с целью снижения риска киберугроз : научное издание

Тип публикации: статья из журнала

Год издания: 2022

Идентификатор DOI: 10.31772/2712-8970-2022-23-2-148-155

Ключевые слова: topic-modeling, cyber security, data analysis, тематическое моделирование, кибербезопасность, анализ данных

Аннотация: Безопасность внутренней сети является важным аспектом успешного предприятия. Существуют различные средства для предотвращения киберугроз и анализа посещаемых интернет-ресурсов, но их быстродействие и возможность применения сильно зависит от объема входных данных. В статье рассматриваются существующие методы определения сетевых угроз с помощью анализа журналов прокси-сервера и предлагается метод кластеризации интернет-ресурсов, направленный на снижение объема входных данных путем исключения групп безопасных интернет-ресурсов или выбором только подозрительных интернет-ресурсов. Предложенный метод состоит из 3-х этапов: предобработка данных, анализ данных и интерпретация полученных результатов. Исходными данными для него являются записи журнала прокси-сервера. На первом этапе из исходных данных выбираются полезные для анализа данные, после чего непрерывный поток данных делится на небольшие сессии при помощи метода ядерной оценки плотности. На втором этапе выполняется мягкая кластеризация посещенных интернет-ресурсов путем применения метода тематического моделирования. Результатом второго этапа являются неразмеченные группы интернет-ресурсов. На третьем этапе, с помощью эксперта, происходит интерпретация полученных результатов путем анализа наиболее популярных интернет-ресурсов в каждой группе. Метод имеет множество настроек на каждом этапе, что позволяет сконфигурировать его под любой формат и специфику входных данных. Его область применения никак не ограничивается. Полученный метод может быть использован в качестве дополнительного шага предобработки с целью снижения количества входных данных. Internal network security is an important aspect of a successful enterprise. There are various means to prevent cyber threats and analyze visited Internet resources, but their speed and the possibility of application strongly depends on the volume of input data. This article discusses the existing methods for determining network threats by analyzing proxy server logs, and proposes a method for clustering Internet resources aimed at reducing the volume of input data by excluding groups of secure Internet resources or selecting only suspicious Internet resources. The proposed method consists of 3 stages: data preprocessing, data analysis and interpretation of the results obtained. The initial data for the method are the proxy server log entries. At the first stage, data useful for analysis is selected from the source data, after which the continuous data stream is divided into small sessions using the nuclear density estimation method. At the second stage, soft clustering of visited Internet resources is performed by applying the thematic modeling method. The result of the second stage are unmarked groups of Internet resources. At the third stage, with the help of an expert, the results are interpreted by analyzing the most popular Internet resources in each group. The method has many settings at each stage, which allows you to configure it for any format and specifics of the input data. The scope of the method is not limited in any way. The resulting method can be used as an additional preprocessing step in order to reduce the amount of input data.

Ссылки на полный текст

Издание

Журнал: Сибирский аэрокосмический журнал

Выпуск журнала: Т. 23, 2

Номера страниц: 148-155

ISSN журнала: 27128970

Место издания: Красноярск

Издатель: Сибирский государственный университет науки и технологий им. акад. М.Ф. Решетнева

Персоны

  • Донцов Д.Ю. (Институт вычислительного моделирования СО РАН)
  • Исаев С.В. (Институт вычислительного моделирования СО РАН)

Вхождение в базы данных

Информация о публикациях загружается с сайта службы поддержки публикационной активности СФУ. Сообщите, если заметили неточности.

Вы можете отметить интересные фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.