Проектирование информационной системы комплексного тематического анализа больших данных социальных медиа

Обложка

Цитировать

Полный текст

Аннотация

Открытые сообщества пользователей в социальных медиа являются источником данных, оперативно представляющим тематическую повестку актуальных для населения вопросов. Индикаторы активности пользователей - просмотры, комментарии и репосты - обладают динамической природой. В статье представлен новый взгляд на задачи тематического моделирования, результаты которого исследуются на наличие динамических свойств. Эти данные актуальны для решения задач информационной поддержки регионального и муниципального развития. Представлен опыт проектирования информационной системы комплексного тематического анализа больших открытых данных социальных медиа. Система основана на использовании трёх технологий: построения динамических тематических моделей для мониторинга социальных медиа; интеллектуального анализа результатов тематического моделирования объектов и процессов социальных медиа; когнитивной визуализации результатов динамического тематического моделирования. Для учёта проектной неопределённости использованы средства объектного моделирования, системного проектирования и модульный подход.

Полный текст

Введение

Проникновение в повседневную жизнь и доступность социальных медиа обуславливает интерес властных структур, представителей бизнеса и общественных организаций к размещённой там информации. Пользователи социальных медиа оперативно реагируют на актуальные для населения вопросы. Основные компоненты содержания: тексты и индикаторы активности пользователей - просмотры, комментарии и репосты - обладают динамической природой. Следует подчеркнуть важность исследования этой динамичности, которая характеризует стремления пользователей, что необходимо для прогнозирования развития социума и соответствующих вариантов отклика со стороны органов управления. Эти данные отражают интересы и настроения людей в режиме реального времени и представляют большую ценность для задач информационной поддержки принятия решений при региональном и муниципальном управлении.

В работе представлен опыт проектирования информационной системы комплексного тематического анализа больших открытых данных социальных медиа. Рассматриваются концептуальные основы исследования динамических свойств результатов тематического моделирования (ТМ) и технологии, составляющие архитектурный каркас системы: построения динамических тематических моделей (ТМь) для мониторинга социальных медиа; интеллектуального анализа результатов ТМ объектов и процессов социальных медиа; когнитивной визуализации результатов динамического ТМ. Для учёта проектной неопределённости [1] и повышения доступности информации лицам, готовым к выполнению познавательно-деятельных функций, [2] использован модульный подход.

1 Методы и меры для исследования динамических свойств результатов ТМ

 [3] отмечено, что впервые в формальной постановке задача обнаружения и отслеживания тем упомянута в отчёте [4].

ТМь - модель коллекции текстовых документов, которая определяет: к каким темам относится каждый документ коллекции и какие слова (термины) образуют каждую тему [5]. Под темой понимается набор слов, а не названия, схожие с заголовками научной статьи или элементами классификаторов типа универсальной десятичной классификации. ТМ — построение ТМь. Динамическое ТМ представляет собой способ построения ТМь, позволяющий учитывать временную компоненту для выявления и отслеживания истории развития тем. В данной работе исследуются динамические свойства ТМь. Такое исследование подразумевает анализ динамики, в т.ч. нетекстовых атрибутов информационной среды социальных медиа.

Пусть D — множество (коллекция) текстовых документов, W — множество (словарь) употребляемых в них терминов. Терминами могут быть слова и словосочетания. Каждый документ dD представляет собой последовательность nd терминов w1, ..., wnd из словаря W.

В основе ТМ лежит низкоранговое матричное разложение, которое позволяет представить исходную матрицу (матрицу документ-термин) в виде произведения двух матриц более низкого ранга. Такое представление опирается на интуитивно понятное предположение о том, что число тем |T| меньше |D| и |W|. Каждый документ состоит из нескольких тем, и каждая тема состоит из некоторых терминов. Для каждого документа определяется вероятность того, что он содержит каждую из тем, и для каждой темы - вероятность того, что она содержит каждый из терминов. Эти вероятности можно записать в матрицы Θ и Φ соответственно. Задача сводится к поиску приближённого представления матрицы частот терминов в документах P=(︀p^(w|d))︀W×D в виде произведения P=ΦхΘ двух неизвестных матриц меньшего размера — матрицы терминов тем Φ=(фwt)W×T и матрицы тем документов Θ=(θtd)D. Матрицы P, Φ, Θ являются стохастическими и имеют неотрицательные нормированные столбцы pd, ϕt, θd, представляющие дискретные распределения [6].

ТМ позволяет автоматически выделять темы из текстовых документов и широко применяется в области анализа текстов, а также для информационного поиска. Базовыми методами ТМ являются латентно-семантический анализ (ЛСА) [7], вероятностный ЛСА [8], латентное размещение Дирихле (Latent Dirichlet Allocation, LDA)) [9], неотрицательное матричное разложение [10], иерархическая языковая модель Дирихле [11], иерархический процесс Дирихле (Hierarchical Dirichlet Processes, HDP) [12] и др.

Одной из особенностей текстов в социальных сетях является их малая длина. Для ТМ коротких текстов предложено несколько подходов [13]: прямой учёт встречаемости слов [14], рассмотрение каждого короткого документа как принадлежащего одной теме [9], учёт эвристических связей между документами для объединения их в «псевдо-документы» для получения документов большего размера [15].

Известны методы ТМ, позволяющие учитывать эволюцию тем во времени: динамическая ТМь [16], байесовская сеть с непрерывным временем [17], фреймворк для выявления тем в корпусе данных и отслеживания сложных структурных изменений во времени [18] и др.

Особенности оценивания методов ТМ в социальных медиа обсуждались в работе [19]. Среди автоматически вычисляемых наибольшее распространение получили метрики [20], основанные на встречаемости терминов. К интегральным показателям ядра темы относятся характеристики, вычисляемые на основе частотных значений входящих в ядро темы токенов [21]. Нахождение универсальных автоматически вычисляемых метрик качества разных ТМь является открытым вопросом.

В обзоре мер сходства текста [22] выделяются четыре типа мер, основанных на: символах, терминах, корпусе, знаниях; а также гибридные меры, представляющие собой комбинации перечисленных типов. При использовании символьных мер тексты рассматриваются как последовательности символов, которые могут быть преобразованы с помощью операций редактирования [23]. Чтобы применить эти меры, тексты (документы) представляются в виде списков частот или векторной модели, в которой каждому слову сопоставляется вес в соответствии с выбранной весовой функцией. Получив такое представление для документов, можно находить расстояние между документами в пространстве [3].

Для назначения весов словам используется метод TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) [24]. Для сравнения векторов документов в [4, 25] применялись косинусное сходство, манхэттенское расстояние, евклидово расстояние и др.

Следующим уровнем сравнения текстов является сравнение тем. На предварительном этапе для корпусов текстов строятся ТМь, которые сопоставляются между собой. Для количественной оценки различия коллекций в рамках сравнения ТМь предложено использовать сумму модулей отклонений от равномерного распределения тематик, делённую на количество тематик – коэффициент контентной аутентичности [26].

В области корпусной лингвистики задача подобия текста и корпуса, а также сравнения коллекций (корпусов) текстов относится к направлению сравнительного текстового анализа (СТА) [27, 28].

2 Концептуальные основы комплексного исследования динамических свойств результатов ТМ

Для исследования динамическими свойствами результатов ТМ предлагается разделение результатов по способам представления на:

  • множества вероятностных элементов;
  • связи ТМь и атрибутов исходных текстов, использованных для построения этих моделей;
  • специализированные ТМь с мультимодальной архитектурой.

Способы представления определяют направления работы с динамическими свойствами результатов ТМ, по каждому из которых создано концептуальное описание технологии и соответствующих программных компонентов:

  • проектирование и формирование архитектур ТМь путём определения необходимых компонент и выбора инструментов реализации;
  • построение ТМь и их интеллектуальный анализ;
  • когнитивная визуализация динамики в результатах ТМ.

За основу технологии принята созданная система мониторинга (С.М.) сообществ социальных медиа [29]. Получаемые с помощью этой системы данные регулярно обрабатываются с целью выявления динамических аспектов объектов и процессов, с которыми эти данные связаны. На рисунке 1 представлены в виде диаграммы использования UML (Unified Modeling Language) возможные варианты исследования динамических свойств результатов ТМ на основе открытых больших данных социальных медиа.

 

Рисунок 1 – Диаграмма использования. Комплексное исследование динамических свойств результатов тематического моделирования

 

Первый уровень прецедентов содержит действия, включающие предварительный этап извлечения данных посредством применения С.М. и соответствующие разрабатываемым технологиям: построение динамических ТМь, интеллектуальный анализ результатов, когнитивная визуализация. Второй уровень детально раскрывает варианты использования каждой из технологий.

На рисунке 2 в виде диаграммы последовательности UML представлен пример использования разработанных технологий для исследования динамических свойств ТМь. На предварительном этапе пользователи определяют конфигурацию мониторинга данных. В результате работы соответствующих инструментов извлечения данные социальных медиа сохраняются в базе данных (БД) мониторинга, а пользователь получает уведомление. Подобная схема применяется и на следующих основных этапах, ассоциированных с использованием разработанных технологий: построения ТМь, анализа и визуализации.

Рисунок 2 – Диаграмма последовательности. Применение разработанных технологий для исследования динамических свойств результатов тематического моделирования

 

3 Построение динамических тематических моделей на основе данных мониторинга социальных медиа

Динамическая ТМь отражает распределённые во времени и/или пространстве тематические свойства определённого корпуса текстов. Корпуса текстов, сформированные на основе открытых данных социальных медиа, наделены определённой спецификой. Помимо содержания и связанных с ним лексико-семантических и других языковых свойств, такие тексты характеризуются множеством дополнительной атрибутивной информации. Например, к такой информации относятся аккаунт автора текстов и ассоциированные с ним пользовательский профиль, дата, время, место публикации, а также связанные с этой публикацией другие публикации, их прямые и косвенные характеристики.

Исследование динамических свойств объектов и процессов, связанных с ТМ, позволило выявить способы представления результатов ТМ, в которых проявляется динамика (см. рисунок 3). Все варианты разбиваются на два подмножества: аспект динамики и инструмент выявления динамики. Динамика ТМь проявляется в виде следующих вариантов на основе: последовательностей тем; содержания текстов; атрибутов текста (контекста). Динамические особенности этих вариантов проявляются в результате исследования неразрывных связей между характеристиками исходных корпусов текстов и получаемыми на их основе ТМь. Каждый из вариантов может рассматриваться отдельно и в сочетаниях с остальными.

 

Рисунок 3 – Диаграмма использования. Технология создания динамических тематических моделей

 

В первом случае рассматриваются темы в ТМь. Интерес представляют изменение порядка тем, их возникновение, преобразование и исчезновение, а также временные характеристики этих изменений.

Содержание текстов документов, на основе которых строятся ТМь, задаёт второй динамический аспект. В данном случае интерес представляет то, как и какие изменения в исходных текстах приводят к изменению ТМь и каков характер этих изменений.

Третий путь работы с динамическими аспектами ТМь предусматривает рассмотрение их совместно с атрибутивной информацией, с которой связаны тексты исходных документов. Тексты социальных медиа неразрывно связаны с такими атрибутами как счётчики активности (комментарии, просмотры, авторы, дата и время публикации и др.). Интерес представляет то, как динамические свойства атрибутов связаны с динамическими свойствами ТМь.

В первом варианте подхода к оценке динамических характеристик ТМь результаты ТМ рассматриваются как множества вероятностных векторов. В общем случае на вход в ТМь передаётся исследуемый корпус текстов и словарь, а на выходе получаются две матрицы: Φ (слова на темы) и Θ (темы на документы). Матрица Φ состоит из вектор-столбцов, задающих распределения слов в словаре в соответствии с каждой темой. Матрица Θ формируется из вектор-столбцов с вероятностным распределением тем в каждом документе исследуемого корпуса текстов. Работа с динамическими характеристиками таких объектов включает использование мер и метрик, отмеченных в разделе 1. Вычисление таких метрик позволяет находить для компонентов ТМь степень их сходства и различия, определять расстояния между ними и т.п.

Второй вариант исследования динамики ТМь ориентирован на извлечение и анализ атрибутивных особенностей объектов. Исследуются переход от тематических свойств текстов к их динамичным атрибутивным особенностям и обратный переход - от атрибутов с заданными свойствами к связанным с ними текстам и их тематическим характеристикам.

Для комплексного анализа динамики и тематического наполнения необходимо на этапе подготовки к сбору данных определить то, какие тексты и их атрибуты из какой социальной сети должны быть получены и положены в основу ТМь.

При извлечении открытых данных из социальных медиа руководствуются утверждением о том, что лишних данных не бывает. При построении ТМь используются только текстовые данные, но на следующем этапе анализа подключаются все атрибутивные метаданные.

Мультимодальный, комплексный вариант построения или представления динамических ТМь основывается на внутренних свойствах и возможностях определённого класса таких моделей. ТМь с аддитивной регуляризацией позволяют включать непосредственно в модель дополнительные, в т.ч. нетекстовые, данные. Это реализовано с помощью т.н. модальностей - маркированных единой меткой непересекающихся групп данных, на базе которых строится ТМь. Для её построения достаточно определения основной текстовой модальности, в которую включаются исходные тексты. Дополнительные модальности представляют собой сопутствующие основной модальности группы текстовых атрибутов, которые совместно, но не пересекаясь, обрабатываются алгоритмами ТМ. Гибкость в управлении модальностями добавляют коэффициенты, которыми регулируется степень значимости каждой модальности. Эти коэффициенты влияют на ТМь, определяя в ней вклад каждой модальности пропорционально значениям коэффициентов. Несмотря на то, что модальности — это текстовые группы, они могут быть сформированы из нетекстовых элементов, т.к. алгоритмы ТМ работают с текстами, разбитыми на токены (обособленные части текста, имеющие своё символьное представление).

С помощью таких токенов можно записать идентификационные номера аккаунтов, даты, значения счётчиков активности, закодировать динамические аспекты текстов соцсетей.

Полученная в результате модель содержит данные о динамике. В описанном варианте все интересующие динамические аспекты определяются на этапе построения модели. В предыдущем варианте предусматривалась возможность связывания тематических и динамических характеристик различными способами после получения модели.

4 Интеллектуальный анализ результатов ТМ объектов и процессов социальных медиа

Для совместного исследования результатов ТМ и расширенного атрибутами динамично изменяющегося исходного корпуса текстов разработана технология интеллектуального анализа данных социальных медиа. Реализованы базовые процедуры получения:

  • тематических характеристик по заданным исходным текстам (объектам) и их атрибутам;
  • атрибутивной информации по заданным тематическим свойствам.

Разработанная технология и реализующие её средства расширяют возможности анализа корпуса текстов с помощью ТМ. Здесь используется свойство текстов социальных медиа, которые, по сути, являются метатекстами. Метатекстовая структура исследуемых объектов расширяет возможности ТМ пропорционально объёму и структуре метатекстовых атрибутов. Такими атрибутами являются счётчики активности, а также мультимедийные приложения (графические и видео изображения, аудио файлы и др.). Важным элементом является динамический характер исследуемых объектов. Тексты социальных медиа изменяются во времени и в пространствах, задаваемых своими атрибутами. Для работы с ними применяются различные метрики и меры.

Особенность интеллектуального анализа заключается в совместном использовании полученных результатов ТМ и исходных данных, имеющих объёмную атрибутивную структуру. Использование такого расширения структур данных позволяет проводить гибкий многоуровневый тематический анализ. Таким образом, интеллектуальный анализ результатов ТМ реализуется поэтапно (см. рисунок 4):

  • построение ТМь одним из способов, описанных в разделе 3;
  • установление связей между ТМь и БД с атрибутивными данными;
  • формирование запросов к тематической модели, позволяющих получать:
    • тематические характеристики на основе заданных атрибутивных данных;
    • атрибутивные данные на основе заданных тематических характеристик;
    • построение последовательности запросов к ТМь, позволяющих исследовать её динамические свойства на основе заданной последовательности (множества) атрибутивных данных и тематических атрибутов;
  • применение к результатам запросов метрик и мер, соответствующих типам получаемых данных;
  • интерпретация полученных результатов.

 

Рисунок 4 – Диаграмма последовательности. Технология интеллектуальной обработки результатов тематического моделирования

 

5 Когнитивная визуализация результатов динамического ТМ для поддержки решения задач регионального развития

В данной работе ТМ и анализ больших открытых данных социальных медиа используются для разработки концептуальных и прикладных средств поддержки решения задач регионального развития. Конечные пользователи разработок - управленцы и эксперты в различных предметных областях, которым необходимая в работе информация о социальных процессах будет представлена в виде результатов ТМ и производных от них. Такие результаты нуждаются в дополнительной подготовке для представления экспертам.

Когнитивная визуализация предполагает представление результатов ТМ в удобном и понятном интерактивном виде. Такой подход позволяет эксперту иметь доступ к полученным аналитическим результатам и к связанным с ними первичным данным, иметь возможность либо сразу принимать необходимые решения, либо скорректировать модельные параметры и построить следующий вариант ТМь. Для когнитивной визуализации предложены базовые принципы (см. рисунок 5), на основе которых производится проектирование и программная реализация когнитивной визуализации.

 

Рисунок 5 – Диаграмма использования. Базовые принципы технологии когнитивной визуализации

 

Для пользователя-эксперта визуальный образ формируется с помощью управления содержанием и оформлением выдачи, выбором инструментальных средств и способов коммуникации, а также предобработкой данных. Эти виды управления могут быть использованы по отдельности и в различных сочетаниях. При этом управление может осуществляться в автоматизированном режиме или быть полностью переданным пользователю.

Например, если данных для отображения слишком много, то можно выдавать их пользователю порциями, предоставляя ему интерактивные элементы управления для выбора нужных данных. Для взаимодействия с пользователем можно использовать различные способы коммуникации (мессенджеры, электронную почту и др.). Для повышения наглядности данные могут быть дополнительно обработаны, например, с помощью ТМ, средства кластеризации и классификации, построения онтологических конструкций и тезаурусов и др.

Технологии ТМ постоянно развиваются. Существуют средства когнитивной визуализации результатов ТМ (например, LDAvis [30]). Однако данное средство позволяет видеть лишь часть результатов ТМ, которая представляет собой визуализацию содержимого матрицы Φ, т.е. тематическую разбивку словаря анализируемого корпуса текстов. На координатной плоскости, задаваемой номинальными координатами [31], отображается взаимное расположение выявленных тем. В данной работе развитие функции pyLDAvis расширено возможностью работы с содержимым матрицы Θ, т.е. распределением документов корпуса текстов по темам. На основе результатов ТМ пользователю предоставлена возможность выбора темы для анализа и интерпретации результатов моделирования. Производится автоматическая выборка и отображение строк матрицы Θ, связанных с исходными текстами, обладающими максимальной вероятностью принадлежности к выбранной теме. Посредством автоматического размещения гиперссылок рядом со строками матрицы Θ обеспечивается доступ к исходным текстам (см. рисунок 6).

 

Рисунок 6 – Диаграмма последовательности. Технология когнитивной визуализации результатов динамического тематического моделирования

 

Пользовательский веб-интерфейс, в котором реализована указанная последовательность действий, представлен на рисунке 7. Интерфейс pyLDAvis расширен размещёнными в верхней части изображения блоками выбора темы и представления строк матрицы Θ, обогащённых гиперссылками на исходные тексты. Данное расширение является демонстрацией совместной работы базовых принципов когнитивной визуализации, представленных на рисунке 5 в виде управления содержанием, оформлением и автоматизацией выдачи, а также выбором инструментальных средств.

 

Рисунок 7 – pyLDAvisPLUS. Расширение веб-интерфейса инструментария pyLDAvis при анализе тематических моделей и атрибутивной информации и связанных с ними исходных текстов

 

Заключение

Представлен опыт создания информационной системы комплексного тематического анализа больших данных социальных медиа на основе разработанных информационных технологий.

Эти технологии описаны на принципиальном уровне в нотации диаграмм UML. Базовые компоненты технологий реализованы на языке программирования Python с использованием архитектуры web.

Изложенные подходы использования ТМ тесно связаны с развитием технологий и инструментов поддержки управления региональным развитием [32].

×

Об авторах

Андрей Михайлович Федоров

Институт информатики и математического моделирования им. В.А. Путилова Кольского научного центра РАН (ИИММ КНЦ РАН)

Email: fedorov@iimm.ru

к.т.н., ведущий научный сотрудник, заместитель директора по научной работе, доцент кафедры информатики и вычислительной техники

Россия, Апатиты

Игорь Олегович Датьев

Институт информатики и математического моделирования им. В.А. Путилова Кольского научного центра РАН (ИИММ КНЦ РАН)

Автор, ответственный за переписку.
Email: datyev@iimm.ru

к.т.н., старший научный сотрудник, ученый секретарь

Россия, Апатиты

Иван Геннадьевич Вишняков

Институт информатики и математического моделирования им. В.А. Путилова Кольского научного центра РАН (ИИММ КНЦ РАН)

Email: vishnyakov@iimm.ru

магистрант второго курса, системный администратор

Россия, Апатиты

Список литературы

  1. Боргест Н.М. Научный базис онтологии проектирования // Онтология проектирования. 2013. №1 (7). С.7-25.
  2. Смирнов С.В. Онтологическое моделирование в ситуационном управлении // Онтология проектирования. 2012. №2. С.16-24.
  3. Коршунов А.В., Гомзин А.Г. Тематическое моделирование текстов на естественном языке // Труды Института системного программирования РАН. 2012. №23. С.215-244.
  4. Allan J., Carbonell J., Doddington G., Yamron J., Yang Y. Topic Detection and Tracking Pilot Study. Final Report // Proceedings of the Broadcast News Transcription and Understanding Workshop (Sponsored by DARPA), Feb. 1998.
  5. Воронцов К.В. Вероятностное тематическое моделирование. 2013. http://www.machinelearning.ru.
  6. Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. М.: Изд-во НИУ ВШЭ, 2017. 269 с. https://www.hse.ru/data/2017/07/22/1173852775/NLPandDA_4print.pdf.
  7. Deerwester S., Dumais S.T., Furnas G.W., Landauer T.K., Harshman R. Indexing by Latent Semantic Analysis // J. Am. Soc. Inf. Sci. Vol.41(6). 1990. P.391-407.
  8. Hofmann T. Probabilistic latent semantic indexing // In: Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR '99). Association for Computing Machinery, New York, NY, USA, 1999. P.50–57. doi: 10.1145/312624.312649.
  9. Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet allocation // J. Mach. Learn. Res. Vol. 3. 2003. P.993-1022.
  10. Kuang D., Choo J., Park H. Nonnegative Matrix Factorization for Interactive Topic Modeling and Document Clustering // In: Celebi M. (eds) Partitional Clustering Algorithms. Springer, Cham. 2015. doi: 10.1007/978-3-319-09259-1_7.
  11. MacKay D.J.C., Peto L.C.B. A hierarchical Dirichlet language model // Nat. Lang. Eng. Vol. 1(3). 1995. doi: 10.1017/S1351324900000218.
  12. Teh Y.W., Jordan M.I., Beal M.J., Blei D.M. Sharing clusters among related groups: Hierarchical Dirichlet processes // In: NIPS'04: Proceedings of the 17th International Conference on Neural Information Processing Systems. MIT Press, Cambridge, MA, United States, 2004. P.1385–1392.
  13. Vayansky I., Kumar S. A review of topic modeling methods // Information Systems. 2020. Vol.94. 101582. doi: 10.1016/j.is.2020.101582.
  14. Yan X., Guo J., Lan Y., Cheng X. A biterm topic model for short texts // In: Proceedings of the 22nd International Conference on World Wide Web, Rio de Janeiro, Brazil. 2013. P.1445–1455. doi: 10.1145/2488388.2488514.
  15. Zuo Y. et al. Topic Modeling of Short Texts: A Pseudo-Document View // In: KDD’16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Association for Computing Machinery, New York, NY, USA, 2016. P.2105–2114. doi: 10.1145/2939672.2939880.
  16. Blei D.M., Lafferty J.D. Dynamic topic models // In: ICML '06: Proceedings of the 23rd International Conference on Machine Learning. New York, NY, USA, ACM, 2006. P.113–120. doi: 10.1145/1143844.1143859.
  17. Nodelman U., Shelton C.R., Koller D. Continuous time bayesian networks // In: Proceedings of the Eighteenth Conference on Uncertainty in Artificial Intelligence. Alberta, Canada, 2002. P.378–387.
  18. Beykikhoshk A., Arandjelović O., Phung D., Venkatesh S. Discovering topic structures of a temporally evolving document corpus // Knowl Inf Syst. 2018. Vol. 55. P.599–632. doi: 10.1007/s10115-017-1095-4.
  19. Датьев И.О., Федоров А.М. Аддитивная регуляризация при тематическом моделировании текстов сообществ онлайновых социальных сетей // Онтология проектирования. 2022. Том 12, №2(44). С.186-199. doi: 10.18287/2223-9537-2022-12-2-186-199.
  20. Mimno D. Wallach H., Talley Ed., Leenders M., McCallum A. Optimizing semantic coherence in topic models // In: Proc. of the 2011 Conf. on Empirical Methods in Natural Language Processing, Edinburgh, Scotland, UK. Association of Computational Linguistics, 2011. P.262-272.
  21. Vorontsov K., Potapenko A. Additive regularization of topic models // Mach Learn. 2015. Vol. 101. P. 303-323. https://doi.org/10.1007/s10994-014-5476-6.
  22. Gomaa W. H., Fahmy A. A. A Survey of Text Similarity Approaches // International Journal of Computer Applications. 2013. Vol. 68(13). P.13–18.
  23. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академий Наук СССР. 1965. Том 163.4. C.845-848.
  24. Jones K.S. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. MCB University: MCB University Press, 2004. Vol. 60, no. 5. P. 493-502.
  25. Allan J., Lavrenko V., Malin D., Swan R. Detections, bounds, and timelines: UMass and TDT-3 // In Proceedings of Topic Detection and Tracking Workshop. Vienna, VA, 2000. P.167–174.
  26. Краснов Ф.В., Диментов А.В., Шварцман М.Е. Использование тематических моделей для парного сравнения коллекций научных статей // Информатика и её применения. 2020. Том 14, выпуск 3. C.129–135.
  27. Kilgarriff A., Rose T. Measures for corpus similarity and homogeneity. 1998. http://aclweb.org/anthology/W98-1506.
  28. Fothergill R., Cook P., Baldwin T. Evaluating a topic modelling approach to measuring corpus similarity, In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož, Slovenia. 2016. P.273-279.
  29. Федоров А.М., Датьев И.О., Щур А.Л. «ИС МСВ» //Роспатент: Свидетельство о государственной регистрации программы для ЭВМ №2020619469 от 17 августа 2020 г.
  30. Sievert C., Shirley K. LDAvis: A method for visualizing and interpreting topics // In Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces, Baltimore, Maryland, USA. Association for Computational Linguistics, 2014. P.63-70.
  31. Jolliffe IT, Cadima J. Principal component analysis: a review and recent developments // Philos Trans A Math Phys Eng Sci. 2016 Apr 13; 374(2065):20150202. doi: 10.1098/rsta.2015.0202. PMID: 26953178; PMCID: PMC4792409.
  32. Информационно-аналитическая система поддержки управления региональным развитием на основе открытых больших данных социальных медиа: концепция разработки и практика реализации / А. М. Федоров и др. // Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т.13, № 2. С.5–22. doi: 10.37614/2949-1215.2022.13.2.001

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рисунок 1 – Диаграмма использования. Комплексное исследование динамических свойств результатов тематического моделирования

Скачать (713KB)
3. Рисунок 2 – Диаграмма последовательности. Применение разработанных технологий для исследования динамических свойств результатов тематического моделирования

Скачать (791KB)
4. Рисунок 3 – Диаграмма использования. Технология создания динамических тематических моделей

Скачать (482KB)
5. Рисунок 4 – Диаграмма последовательности. Технология интеллектуальной обработки результатов тематического моделирования

Скачать (640KB)
6. Рисунок 5 – Диаграмма использования. Базовые принципы технологии когнитивной визуализации

Скачать (916KB)
7. Рисунок 6 – Диаграмма последовательности. Технология когнитивной визуализации результатов динамического тематического моделирования

Скачать (625KB)
8. Рисунок 7 – pyLDAvisPLUS. Расширение веб-интерфейса инструментария pyLDAvis при анализе тематических моделей и атрибутивной информации и связанных с ними исходных текстов


© Федоров А.М., Датьев И.О., Вишняков И.Г., 2024

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: серия ФС 77 - 70157 от 16.06.2017.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах