Комплексный подход к анализу аргументативных отношений в текстах научной коммуникации

Сидорова Елена Анатольевна; Elena A. Sidorova; Ахмадеева Ирина Равильевна; Irina R. Akhmadeeva; Загорулько Юрий Алексеевич; Yury A. Zagorulko; Кононенко Ирина Семеновна; Irina S. Kononenko; Серый Алексей Сергеевич; Alexey S. Sery; Чагина Полина Максимовна; Polina M. Chagina; Шестаков Владимир Константинович; Vladimir K. Shestakov

doi:10.18287/2223-9537-2023-13-4-562-579

Комплексный подход к анализу аргументативных отношений в текстах научной коммуникации

Авторы: Сидорова Е.А.¹, Ахмадеева И.Р.¹, Загорулько Ю.А.¹, Кононенко И.С.¹, Серый А.С.¹, Чагина П.М.¹, Шестаков В.К.¹
Учреждения:
1. Институт систем информатики им. А.П. Ершова СО РАН
Выпуск: Том 13, № 4 (2023)
Страницы: 562-579
Раздел: ИНЖИНИРИНГ ОНТОЛОГИЙ
URL: https://journals.ssau.ru/ontology/article/view/27785
DOI: https://doi.org/10.18287/2223-9537-2023-13-4-562-579
ID: 27785

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Рассматривается задача автоматического анализа аргументации в текстах научной коммуникации. Под аргументацией понимается упорядоченная совокупность аргументов, используемых для подтверждения некоторого тезиса. Аргумент включает как минимум одну посылку и одно заключение, связанные аргументативным отношением. Цель работы – экспериментальное исследование нейросетевых подходов к решению задачи поиска и извлечения аргументативных отношений между утверждениями, расположенными близко в тексте. Исследование проводилось на корпусе текстов с аргументативной разметкой, созданной с помощью разработанной веб-платформы. Корпус включал тексты научных новостей, аналитические статьи с сайта Хабр, научные статьи и рецензии. На основе этих текстов построены наборы данных для машинного обучения. Для повышения качества обучения нейросетевых моделей эти наборы дополнены путём применения автоматических методов перефразирования и двойного перевода. Рассмотрено два подхода к обучению моделей: с маркированием индикаторов в текстах и с предварительным обучением языковой модели на задаче предсказания индикаторов. Для оценивания результатов работы моделей предложен подход на основе оценок согласия между экспертами, применяемый для сравнения разметок текстов, созданных вручную. Сравнение коэффициентов согласия между экспертами и обученными моделями показало, что порог качества для извлечения аргументативных связей достигнут на модели с маркированными индикаторами. Анализ ошибок модели проведён путём визуализации полученных результатов. Новизна работы заключается в применении комплексного подхода к созданию наборов данных, обучению моделей и оцениванию результатов, полученных при автоматическом извлечении аргументативных отношений.

Ключевые слова

аргументация, автоматический анализ, разметка текста, аргументативные отношения, индикатор аргументации, согласованность разметки, набор данных

Полный текст

Введение

Аргументация – это упорядоченная совокупность аргументов, используемых для подтверждения некоторого тезиса. С этой целью формулируются суждения, которые обосновывают главный тезис непосредственно или с помощью промежуточных шагов. Каждый шаг такого обоснования рассматривается как аргумент, а способы объяснения – как типовые схемы рассуждений.

Анализ аргументации – это междисциплинарная область исследований, посвященная разработке теории аргументации, построению формальных моделей аргумента, выявлению сценариев рассуждений, типовых доводов за или против какого-либо утверждения и т.п. Появление таких формализмов, как модель С. Тулмина [1], схемы аргументации Д. Уолтона [2] и Х. Перельмана [3], периодическая таблица аргументов Ж. Вагеманса [4], формат представления аргументации [5] и построенная на его основе онтология аргументации [6] позволило развить прикладные исследования аргументации в области компьютерной лингвистики.

Интеллектуальный анализ аргументации AM (от англ. Argument Mining) – это направление исследований в области автоматической обработки текстов на естественном языке. Целью такого анализа является автоматическая идентификация и извлечение аргументативных структур из текста на естественном языке с помощью компьютерных программ [7]. К аргументативным структурам относятся: посылки, заключения, аргументы, отношения между компонентами аргументации, а также схемы рассуждений и типовые сценарии.

Модель аргументации влияет на выбор методов анализа аргументации, подготовку данных, оценку качества и на область применимости результатов анализа. Так, выбор простой модели, например модели абстрактной аргументации [8], не учитывающей структуры аргументов, существенно упрощает анализ, но сужает область применения результатов анализа, а выбор более сложной модели [1] не позволяет решить задачу извлечения аргументации, поскольку требуется привлечение средств семантического и прагматического анализа текста.

Известной моделью аргументации, используемой в практических системах анализа, является модель [9]. Эта модель позволяет описывать типовые модели рассуждений, используемые людьми, в виде схем аргументации, каждая из которых задаёт структуру одного аргумента. Около 60 схем аргументации приведено в [2], и список таких схем постоянно пополняется [10]. Важным достоинством модели [9] является наличие её формального описания в виде онтологии, что позволяет ускорить разработку программных компонент и использовать предшествующий опыт исследований.

Текст, коммуникативная задача которого не сводится только к информированию (объяснительный текст), несёт функцию убеждения аудитории в справедливости высказываемых в нём положений (аргументативный текст). Такими являются тексты, относящиеся к научной сфере общения, или функциональному стилю – Ф-стилю [11]. К научному Ф-стилю относятся научная и научно-популярная коммуникации. В данной работе к научно-популярной коммуникации отнесены новостные статьи (научные новости) и статьи с сайта habr.com/ru (habr-статьи). Целевой аудиторией таких текстов является широкая публика, которую автор текста считает необходимым убедить в истинности информации, изложенной в тексте. К научной коммуникации относятся научные статьи, рецензии и статьи с комментариями рецензента. Их целевая аудитория – это специалисты в научной области, к которой относится тематика текстов. Задача автора – убедить коллег в справедливости излагаемых им результатов научных исследований и/или высказать своё мнение.

При анализе аргументации, представленной в тексте на естественном языке, требуется не только извлекать аргументы и цепочки аргументов, подтверждающие или опровергающие некий тезис (абстрактная аргументация), но и исследовать структуру каждого аргумента, её роль и значимость для аргументации в целом (структурная аргументация). Таким образом, анализ аргументации направлен на автоматическое извлечение структурированных аргументов из неструктурированных текстов [7].

Задача анализа структурированной аргументации включает решение следующих подзадач, которые могут быть сформулированы как задачи классификации.

Поиск утверждений – фрагментов текста, являющихся компонентами аргументации.
Классификация утверждений в соответствии с набором ролей, используемых моделью представления аргументации.
Поиск аргументативных связей между утверждениями, образующими аргументы.
Классификация аргументов в соответствии с заданным наборов классов.

Целью данной работы является экспериментальное исследование различных подходов на основе нейросетевых (НС) моделей к решению задачи поиска и выделения аргументативных отношений между утверждениями, расположенными на относительно небольшом расстоянии друг от друга. Эксперименты проводились на русскоязычных текстовых корпусах с аргументативной разметкой, созданных группой специалистов-филологов.

1. Обзор связанных работ

Модели глубокого обучения DL (от англ. Deep Learning models) являются одними из инструментов в компьютерной лингвистике. Результаты современных DL-моделей извлечения аргументативных отношений сравнимы с результатами других моделей (см., например, метод опорных векторов SVM, от англ. Support Vector Machine). В работе [12] показано, что, несмотря на превосходство в классификации аргументативных утверждений модели BERT (от англ. Bidirectional Encoder Representations from Transformers), она уступает в эффективности извлечения аргументативных связей. В [13] рассматривается задача нахождения отношений между компонентами аргументов в эссе, написанных на английском языке не носителями языка. Определяются связи между предложениями, и на их основе формируется древовидная структура аргументации в тексте при помощи последовательного применения языковой модели BERT и нейронной сети BiLSTM (от англ. Bidirectional Long-Short Term Memory).

В данном исследовании используется гипотеза о важности роли индикаторов аргументации при автоматическом обнаружении аргументативных отношений в тексте. Это связано с влиянием, которое оказывают различные дискурсивные маркеры в структуризации текста [14], и с положительным опытом применения индикаторов. Так, в [15] исследована роль индикаторов в аргументативном дискурсе на материале немецкого корпуса, аргументы в котором аннотированы в соответствии с общей моделью аргументации «утверждение-предположение». Для определения различий между индикаторами, предсказывающими наличие посылок и заключений, ранжирования индикаторов по характеристике прироста информации проведены эксперименты с целью изучения характера индикаторов для заключений и посылок, в частности тест Фишера [16]. Эксперименты показали, что определённые семантические группы индикаторов аргументации указывают либо на заключения, либо на посылки и представляют достаточно точные признаки для их различения.

В [17] предложен подход к классификации компонентов аргументов на уровне токенов-слов. Классификация на уровне токенов улучшила результаты классификации предложений по сравнению с современными моделями, такими как Longformer, BERT и Legal-BERT, и показала, что определённые токены, являющиеся индикаторами аргументации, оказывают значительное влияние на результаты.

В [18] рассматривается задача маскированного языкового моделирования MLM (от англ. Masked Language Modeling), для предсказания выбираются индикаторы аргументации (Selective MLM, sMLM), и модель обучается распознавать роли в аргументе различных фрагментов текста. Эксперименты показали, что модель Longformer, настроенная при помощи предложенного sMLM подхода, превосходит другие модели и для извлечения компонента аргументов, и для предсказания отношений.

Таким образом, можно заключить, что значимые результаты достигаются с применением различных НС-моделей, а улучшение результатов работы моделей достигается при уточнении сегментации и использовании дополнительных данных для обучения.

2. Подготовка данных

При решении задач анализа аргументации в работе принят НС-подход, в котором объём обучающих данных напрямую влияет на качество результатов. Основой для создаваемого набора данных послужили корпуса текстов, аннотированных специалистами на платформе ArgNetBank Studio (https://uniserv.iis.nsk.su/arg) [19].

2.1. Корпусы с аргументативной разметкой

Разметка текстов проводилась в соответствии с моделью и набором схем аргументации, созданных на её основе [2]. В данной модели, аргумент – это структура, связывающая набор посылок с заключением, а тип связи каждой посылки с аргументом определяется схемой аргументации. Разметка каждого текста заключалась в моделировании его аргументационной структуры согласно стандарту AIF (от англ. Argument Interchange Format) [5, 20] посредством построения ориентированного связного графа с двумя типами вершин: информационными, которые соответствуют утверждениям, и вершинами-отношениями, представляющими связи между утверждениями.

Для создания корпуса научной коммуникации отобраны тексты, относящиеся к следующим жанровым категориям:

научно-популярная коммуникация: научные новости (30 текстов), habr-статьи (30 статей с комментариями);
научная коммуникация: научные статьи (50 статей), научные рецензии (30 текстов), научные статьи с комментариями рецензентов (10 текстов).

Корпус обладает следующими особенностями:

при сборе корпуса соблюдался принцип максимальной тематической нейтральности жанровых категорий;
тексты каждой категории характеризуются собственными жанровыми особенностями: средний размер, наличие и расположение главного тезиса, длина связей, типовые индикаторы, соотношение конфликтных и поддерживающих отношений;
количество конфликтных аргументов в корпусе невелико по сравнению с аргументами поддержки.

Размеченный корпус содержит 133 текста, аннотированные комментарии не учитывались. Создано 217 аннотаций и размечено 9783 аргумента. Под аннотацией здесь понимается разметка текста в виде графа аргументации, включающего множество утверждений и аргументативных связей (аргументов).

2.2. Построение наборов данных для машинного обучения

Для применения методов машинного обучения к задаче извлечения аргументативных связей необходимо:

создать наборы данных, содержащих положительные и отрицательные примеры пар утверждений на основе имеющейся разметки текста;
предложить дополнительные признаки, которые будут учитываться моделью при обучении и классификации;
разработать механизм предварительного построения гипотез по заданному тексту, т.е. определить, каким образом поданный на вход текст будет разбиваться на утверждения, и какие пары утверждений будут проверяться моделью.

Для решения данных задач предложено несколько подходов.

Для сегментации текста использованы три метода разбиения: на предложения; на клаузы на основе индикаторов; на клаузы на основе синтаксического разбора предложения. Под клаузой понимается простое предложение в составе сложного. Здесь, в связи с несовершенством программных реализаций, под клаузой понимаются фрагменты текста, выделенные автоматически на основе заданных формальных критериев – разделителей и найденных глагольных групп. Каждый такой фрагмент рассматривается в качестве гипотетического утверждения. Так, при сегментации на основе индикаторов каждый индикатор, найденный в середине предложения, рассматривался как разделитель на клаузы, а индикаторы со сложной структурой, включающие в своё определение разрыв, задавали дополнительные границы для выделения утверждений [21]. Для синтаксического анализа предложений использовался синтаксический анализатор из библиотеки spaCy (spacy.io). Результатом этого анализа является синтаксическое дерево разбора предложения, из которого выделялись глагольные группы и зависимые от них части предложения, каждая такая группа считалась отдельной клаузой.

Рассмотрено несколько вариантов использования индикаторов аргументации для дополнительного выделения значимой лексики в наборах данных. Использованы два варианта тегирования, т.е. пометки в тексте найденных индикаторов с помощью дополнительных символов [22]. Словарь индикаторов составлялся вручную или полуавтоматически на основе индикаторов, выделенных экспертами при разметке [23] (доступен на платформе ArgNetBank Studio).

В качестве механизма подбора пар утверждений для классификации выбран подход на основе скользящего окна, включающего два подряд идущих сегмента (предложение и/или клауза). Для каждой пары сегментов проверялось, являются ли они утверждениями одного аргумента и какое место занимают в структуре данного аргумента. На основе полученной информации принималось решение о наличии и направленности аргументативной связи. Поскольку в аргументах может быть несколько посылок, то каждому аргументу может быть сопоставлено несколько аргументативных связей.

Для апробации предложенных подходов подготовлено пять наборов данных, на которых проведены эксперименты с различными НС-моделями.

2.3. Статистическая оценка характера аргументативных связей

В наборы данных помещались только контактные утверждения, поэтому проведено дополнительное исследование с целью оценки степени попадания размеченных аннотаторами связей в выборку. Рассмотрено несколько вариантов взаиморасположения утверждений, относящихся к одному аргументу (посылка и заключение).

Статистическая оценка встречаемости аргументативных связей в корпусе «Научная коммуникация» показала следующие результаты: внутри предложения 29.6%, внутри абзаца 30.6%, соседние абзацы 15.5%, дальние связи 24.3%.

На основе проведённого анализа можно сделать следующие выводы.

Почти 30% аргументативных связей – это связи между фрагментами одного предложения, что говорит о том, что сегментация текста по предложениям слишком грубая и необходимо разделение предложений на более мелкие сегменты.
Около 30% случаев относятся к связям между утверждениями внутри одного абзаца (исключая первую группу связей внутри одного предложения), а в соседних абзацах находится почти 16% связанных утверждений.
Дальние связи, т.е. связи между утверждениями, которые разделены больше чем одним абзацем, составляют четверть всех утверждений.

В целом, полученные оценки свидетельствует о том, что аргументы расположены компактно и предложенные стратегии выбора пар утверждений для проверки на наличие аргументативной связи покрывают большинство случаев.

2.4. Автоматическое расширение наборов данных

В настоящее время существуют способы автоматически перефразировать имеющийся текст. Автоматическое перефразирование позволяет увеличить набор обучающих данных. В работе применены методы двойного перевода и прямого автоматического перефразирования для увеличения объёма наборов данных, построенных из пар предложений. Для двойного перевода применялись трансформерные модели [24], а для прямого перефразирования использовалась модель [25]. Параметры моделей установлены таким образом, чтобы перефразированные тексты не содержали n-граммы из оригинала длиной более трёх. Каждое предложение было перефразировано двумя методами. Для повышения качества прямого перефразирования для каждого оригинального предложения генерировалось до пяти альтернативных вариантов, из которых выбирался ближайший по смыслу к оригиналу. Смысловое сходство предложений оценивалось с помощью модели LaBSE (от англ. Language-agnostic BERT Sentence Embedding), которая обучена векторизовать предложения так, чтобы векторы близких по смыслу предложений были близки геометрически.

В результате первоначальный набор данных расширен в три раза. Для оценки качества текстовых данных, полученных автоматически, было выполнено сравнение их с оригиналом по ключевым характеристикам [26]:

$S_{m}$ – смысловое сходство перефразированных предложений с оригинальными;
$S_{m}^{R}$ – среднее случайное смысловое сходство;
BLEU – широко применяемая мера визуального сходства текстов;
$P_{x}$ – характеристика осмысленности полученных предложений.

Характеристики наборов данных, полученных методами автоматического перефразирования, приведены в таблице 1.

Таблица 1 – Качественные характеристики наборов данных, полученных автоматически

Метрика		Метод
Метрика		**RuT5-based** (модель трансформера для русского языка)	Двойной перевод
$P_{x}^{O}$		3,954158
$S_{m}^{R}$		0,30477	0,30716
$S_{m}$	max	1,0	1,0
	min	0,061837	0,060978
	mean	0,939011	0,901177
	$α_{0.5}$	0,859084	0,751589
$B L E U$	max	1,0	1,0
	min	0,0	0,0
	mean	0,556067	0,491569
$P_{x}$	max	9,22531	9,3763
	min	0,42986	0,2573
	mean	4,59661	3,99337
	$α_{0.95}$	6,1016	5,5902

Из таблицы 1 видно, что оба полученных набора обладают сходным смысловым разнообразием (близкие значения $S_{m}^{R}$ ) и заметными визуальными отличиями от оригинала (средние показатели BLEU). Тексты, полученные прямым перефразированием, в среднем ближе по смыслу к оригинальным. Квантиль $α_{0.5}$ характеристики $S_{m}$ показывает, что смысловое сходство 95% автоматически сгенерированных фраз превосходит 0,85 и 0,75 соответственно. Сгенерированные наборы данных достаточно близки по смыслу к оригиналу. При этом полученные данные отличаются от исходных достаточно, чтобы их можно было считать новыми и сходными по стилистике и языку.

3. Извлечение аргументативных отношений

Для извлечения аргументативных отношений использовался метод машинного обучения на основе глубоких НС с привлечением больших языковых моделей. Данные для экспериментов были представлены в следующем формате:

два утверждения, идущих подряд (left_statement, right_statement), в зависимости от способа построения набора данных могут быть предложениями либо клаузами, полученными одним из двух способов, описанных в подразделе 2.2;
левый (left_arg) и правый (right_arg) аргументы – признаки наличия компонентов аргументации в соответствующем утверждении; принимают значения от 0 до 3, где 0 соответствует отсутствию аргумента, 1 – наличию посылки в утверждении, 2 – наличию заключения и 3 – наличию посылки и заключения одновременно;
отношение (relation) – признак наличия аргументативного отношения между левым и правым утверждениями; принимает значения 1, если утверждения являются компонентами одного аргумента и связь направлена от левого утверждения к правому (т.е. в левом утверждении находится посылка, а в правом – заключение), 2 – связь направлена от правого утверждения к левому, 0 – отсутствие связи;
индикатор (pattern) – название найденного индикатора аргументации (при наличии).

3.1. Сценарий экспериментального исследования

Для представления русского текста использовалась модель ruRoberta (ai-forever/ruRoberta-large) [27], на основе которой строились эмбеддинги утверждений. На вход модели подавались два утверждения, разделённые специальным токеном </s>, выходное представление токена <s> использовалось в качестве векторного представления отношения между двумя утверждениями. Был применён классификатор с двумя полносвязными слоями и активационной функцией ReLU между ними. Для получения вероятности наличия аргументативной связи применялась функция Softmax.

При обучении моделей рассмотрены два подхода: маркирование индикаторов в утверждениях; предварительное обучение языковой модели на вспомогательной задаче предсказания индикаторов.

Первый подход заключался в модификации набора данных (см. подраздел 2.2.). Было проверено два варианта тегирования индикаторов: специальным знаком пунктуации «*» и специальным новым токеном <marker>, который добавлен в словарь токенизатора.

Второй подход отличается тем, что токены маскируются не случайно, а выбираются слова и конструкции, указывающие на наличие аргументации в тексте, т.е. индикаторы аргументации. Правильное предсказание пропущенного индикатора аргументации предполагает «понимание» аргументативной связи между фрагментами текста, являющимися контекстами этого индикатора [18]. В этом подходе модель ruRoberta дополнительно обучена предсказывать пропущенные индикаторы на корпусе научно-популярных текстов, содержащих 2913 предложений.

3.2. Результаты экспериментов

При обучении моделей использованы следующие параметры: коэффициент скорости обучения (learning rate) = 1.0e-06, размер пакета (batch size) = 16, количество эпох = 15, вероятность исключения (dropout) = 20%. При использовании расширенного набора данных количество эпох было сокращено до 8. Предобучение на задаче предсказания индикаторов проводилось в течение 15 эпох со скоростью обучения 3.0e-05.

Качество моделей оценивалось по значениям полноты, точности, F1-меры и площади под ROC-кривой (ROC-AUC) с помощью процедуры перекрестной проверки (cross-validation) с разбиением на пять частей. Результаты представлены в таблице 2.

Таблица 2 – Результаты экспериментов по предсказанию наличия аргументативной связи

Модель	Полнота	Точность	F1-мера	*ROC-AUC*
Предложения
baseline	66,84	35,07	46,00	74,37
indicators ()*	65,98	36,39	46,91	74,65
indicators (new token)	64,10	35,18	45,43	73,34
indicators (pretrain)	64,52	35,27	45,61	73,85
baseline + augmentation	58,10	38,00	45,95	74,70
indicators () + augmentation*	64,44	36,94	46,96	74,49
Предложения и клаузы
baseline	56,30	30,72	39,75	68,72
indicators ()*	56,33	31,86	40,70	69,57
indicators (pretrain)	65,02	28,94	40,05	68,81
Предложения и контексты индикаторов
baseline	52,05	44,23	47,82	74,16
indicators ()*	51,99	43,86	47,58	73,94
indicators (pretrain)	50,41	41,81	45,71	72,53

В таблице использованы обозначения: baseline – базовая модель, indicators – модель, использующая информацию об индикаторах. В скобках уточняется использованный подход: indicators (*), indicators (new token) – тегирование индикаторов, indicators (pretrain) – предобучение на вспомогательной задаче предсказания индикаторов. Модели, обученные на расширенном наборе данных: baseline + augmentation и indicators (*) + augmentation.

Тегирование индикаторов в предложениях увеличило точность предсказания аргументативной связи. Токен «*» показал себя лучше, чем введение нового токена, улучшив также и F1-меру. Предобучение на задаче предсказания индикаторов, в отличие от работы [18], не показало значительного улучшения. Причина этого, возможно, заключается в том, что для данной задачи использовался корпус небольшого объёма. Согласно значению F1-меры лучшие результаты показала модель, обученная на расширенном наборе данных с тегированием индикаторов специальным символом «*».

Сегментация на клаузы с помощью синтаксического анализа предложения породила большое количество вариантов пар соседних утверждений, что негативно сказалось на качестве обученного на таких парах классификатора. При предсказании наличия связей между утверждениями, полученными сегментацией с помощью индикаторов, дополнительное тегирование индикаторов не дало прироста качества.

3.3. Оценка согласованности аннотаций

Другой подход к оценке качества полученного решения – это сравнение аннотаций, построенных экспертом и классификатором. Обычно данный подход применяется для оценки согласия между экспертами-аннотаторами. Его можно использовать и для оценки степени расхождения между графами аргументации, построенными автоматически и вручную.

Для сравнения текстовых аннотаций используются различные оценки согласованности, основанные на статистических и вероятностных моделях. Под согласованностью понимается степень, в которой процесс может быть повторен разными исследователями [28], что определяет надёжность и воспроизводимость результатов. В работе [29] указано, что выбор метода оценки сильно зависит от специфики данных, а для текстового контента показатели обычно занижены из-за невозможности формального выделения границ.

Специфика анализа разногласий аннотаторов при аргументативной разметке текста рассмотрена для англоязычных юридических текстов, размеченных по модели аргументов [30], а также при разметке политических текстов на шведском языке по стандарту AIF и схемам [31]. Расхождения между разметчиками на трёх уровнях аргументационной структуры анализировались при: выделении тезисов, построении связей и определении моделей рассуждения. Для данного исследования актуальны только первые две оценки.

Для оценки согласованности аннотаций текстов с аргументативной разметкой, выполненных разными аннотаторами, разработан алгоритм на основе подхода из [32], который был усовершенствован для получения объективной оценки корпуса «Научная коммуникация». Предложенный алгоритм опирается на следующие понятия. Каждая аннотация состоит из множества утверждений S и множества аргументов, построенных на этих утверждениях. Каждый аргумент включает в себя несколько дуг (начало – одна из посылок, конец – заключение). Если заключением текущего аргумента является другой аргумент, то в качестве конца дуги берётся заключение этого аргумента (примером такого аргумента является схема типа «конфликт»). Таким образом получено множество дуг E для аннотации.

Если у текста есть несколько аннотаций, то они сравниваются попарно. В итоге для каждой пары аннотаций получают два коэффициента согласия для утверждений и дуг. Эти коэффициенты рассчитываются по следующим формулам.

Коэффициент согласия по утверждениям:

$a g r e e m e n t_{S} (S_{1}, S_{2}) = \frac{\min (| {\hat{S}}_{1} |, | {\hat{S}}_{2}|)}{\max (|{\hat{S}}_{1} |,| {\hat{S}}_{2}|) + |S_{1} \ {\hat{S}}_{1}| + |S_{2} \ {\hat{S}}_{2}|}$ ,

где ${\hat{S}}_{1} = \{s_{1} | s_{1} \in S_{1}, \exists s_{2} \in S_{2}, s i m (s_{1}, s_{2}) \geq T\}$ , ${\hat{S}}_{2} = \{s_{2} | s_{2} \in S_{2}, \exists s_{1} \in S_{1}, s i m (s_{1}, s_{2}) \geq T\}$ , $s i m (s_{1}, s_{2}) = \max (\frac{|\hat{s}|}{|s_{1}|}, \frac{|\hat{s}|}{|s_{2}|})$ , $\hat{s} = s_{1} \cap s_{2}$ .

В нашем подходе каждое утверждение представляются интервалом (или набором интервалов в случае разрывного утверждения), границами которого являются позиции в тексте, поэтому пересечение утверждений вычисляется как пересечение интервалов. Порог схожести T выбран равным 0,75. Это похоже на стандартную меру: мощность пересечения двух множеств, делённая на мощность их объединения. Усложнение формулы возникает из-за того, что мощности пересечений в этих двух множествах могут не совпадать, т.к. один интервал из одного множества может пересекаться с несколькими интервалами из другого множества. Это может возникать как из-за выбранного порога схожести, так и из-за того, что один аннотатор разметил часть текста как одно утверждение, а другой на этой же части текста выделил несколько утверждений.

Коэффициент согласия по дугам:

$a g r e m e n t_{E} (E_{1}, E_{2}) = \frac{\min (| {\hat{E}}_{1} |, | {\hat{E}}_{2}|)}{\max (|E_{1} |,| E_{2}|)}$ ,

где $E_{i} = {e | e = (s_{1}, s_{2}), s_{1}, s_{2} \in S_{i}^{'}}$ , ${\hat{E}}_{1} = {e_{1} | e_{1} \in E_{1}, \exists e_{2} \in E_{2}, e_{1} \equiv e_{2}}$ , ${\hat{E}}_{2} = {e_{2} | e_{2} \in E_{2}, \exists e_{1} \in E_{1}, e_{1} \equiv e_{2}}$ , $e_{1} \equiv e_{2} \leftrightarrow e_{1} = (s_{1}^{1}, s_{2}^{1}), e_{2} = (s_{1}^{2}, s_{2}^{2}), s i m (s_{1}^{1}, s_{1}^{2}) \geq T, s i m (s_{2}^{1}, s_{2}^{2}) \geq T$ .

Суть та же, что и для формулы выше: мощность множества совпадающих дуг, делённая на мощность множества всех дуг, соединяющих утверждения из пересечения. Одна дуга из первой аннотации может соответствовать нескольким дугам из второй аннотации, т.к. одно утверждение может соответствовать нескольким.

Для сравнения аннотаций экспертов и аннотаций, полученных с помощью машинного обучения, введён дополнительный коэффициент согласия по контактным дугам – agreement_EC. Контактная дуга – это дуга, у которой между утверждениями, являющимися её вершинами, нет слов, не входящих в эти утверждения. Этот коэффициент вычисляется как и agreement_E, только в расчёте не принимают участия дуги, не являющиеся контактными.

После расчёта коэффициентов согласия для всех текстов из корпуса вычисляется среднее арифметическое для каждого типа коэффициента.

Вначале была вычислена общая оценка согласия между экспертами для текстов, в которых имелось несколько аннотаций (22 текста из корпуса «Научная коммуникация»), а затем получены оценки согласия между экспертами и двумя моделями (средние коэффициенты по парам аннотаций эксперт – модель). Обе модели обучены на наборе данных с разбивкой по предложениям и с выделенными в тексте индикаторами (indicators (*)). Первая модель (AI-1) использовала все размеченные данные, присутствующие на платформе ArgNetBank, а вторая (AI-2) – только наборы данных, полученные по корпусу «Научная коммуникация».

Приведённые в таблице 3 оценки показывают, что:

при выделении аргументативных утверждений (agreement_S) согласие между экспертами (<expert> : <expert>) и экспертами и моделями (<expert> : <AI>) отличаются на 33,28% и 19,65% соответственно, это, по-видимому, означает, что используемые способы сегментации были недостаточны;
при выделении контактных аргументативных связей (agreement_EC) модели машинного обучения уступают экспертам значительно в меньшей степени (на 6,06% и 0,3% соответственно), что говорит об адекватности работы моделей для близко расположенных утверждений;
модель AI-1 уступает AI-2, что, по-видимому, связано с лучшим качеством разметки на корпусе «Научная коммуникация»: отсутствуют неполные разметки, разметки, сделанные студентами, а также разметки, сделанные на основе абстрактной модели аргументации.

Таблица 3 – Усреднённая оценка согласованности аннотаций

Тип аннотаций	**agreement_S, %**	**agreement_E, %**	**agreement_EC, %**
<expert> : <expert>	58,4	32,27	30,31
<expert> : <AI-1>	25,12	-	24,25
<expert> : <AI-2>	38,75	-	30,01

Оценка согласия между экспертами по сути задаёт максимальный порог качества, который можно достигнуть на текущих наборах данных. На практике это означает, что после того, как модели достигнут тех же оценок согласия с экспертами, что и сами эксперты, дальнейшее их улучшение будет невозможным, пока не будут получены лучшие оценки согласия между экспертами. В случае контактных отношений такой порог практически достигнут.

3.4. Анализ результатов

Анализ расхождения между аннотациями, построенными автоматически и вручную, проводился независимым экспертом. С этой целью на платформу были загружены графы аргументации, полученные с помощью модели AI-1. Анализ результатов выявил следующие типовые ошибки, которые делает модель AI-1.

3.4.1. Ошибки сегментации на предложения

Заголовки новостных текстов, не имеющих в конце точки, не были рассмотрены моделью как отдельные предложения и потому не включались в аргументацию.
Недоработка правил выделения предложений при сегментации: имеются неучтённые сокращения с точкой, такие как инициалы и сокращения, наличие которых может привести к неполноте утверждения и неадекватности соответствующих связей.
AI-1: [Молодые люди до 25 лет также чаще других указывают на тех, кто имеет нарушения опорно-двигательного аппарата, и членов их семей – 19% vs.] → [частные благотворители и НКО занимают второе и третье места у молодежи 18-24 лет (26% и 21%)…].

3.4.2. Ошибки, связанные с отсутствием сегментации на клаузы

Поскольку модель при сегментации выделяет предложения, но не выходит на уровень клауз, то большое количество ошибок связано именно с этим: не генерируются связи, которые аннотаторы формируют между клаузами.

В исходном предложении,
AI-1: [Другое исследование, проведённое в том же году, показало, что кофе связан с вероятным снижением риска развития нескольких форм рака, а также сердечно-сосудистых заболеваний, болезни Паркинсона и диабета второго типа.],

которое модель связывает с другими целиком, аннотатор видит несколько фрагментов, утверждений и связей.

Аннотатор: [Другое исследование, проведённое в том же году, показало, что] → [кофе связан] → [с вероятным снижением риска развития нескольких форм рака, а также сердечно-сосудистых заболеваний, болезни Паркинсона и диабета второго типа.].

Однако многие уникальные для AI-1 связи фактически моделируют те же отношения, которые построил аннотатор, но без выделения в утверждении посылки и/или заключения фрагментов, соответствующих вложенным простым предложениям или клаузам в составе целого предложения. Это нельзя в полной мере признать ошибкой.

AI-1: [Эта разработка имеет важное значение для обеспечения точных и своевременных данных о погоде, что поможет в принятии решений и планировании в различных сферах жизни, от сельского хозяйства до экологии.] → [Так, в настоящий момент молодой ученый, постдок и ведущий научный сотрудник кафедры океанологии ЮФУ Денис Кривогуз занимается разработкой программного обеспечения с применением искусственного интеллекта, которое облегчит долгосрочное прогнозирование температуры воздуха и уровня атмосферных осадков в Ростовской области.].

Аннотатор: [что поможет в принятии решений и планировании в различных сферах жизни, от сельского хозяйства до экологии.] → [Так, в настоящий момент молодой ученый…].

Анализ аннотатора часто отличается ввиду разделения предложения-посылки, имеющего в составе перечисление (однородные члены), на отдельные утверждения.

AI-1: [Эти источники играют важнейшую роль в вопросах информированности граждан о данном заболевании, остальные звучат в ответах гораздо реже.] → [Чаще всего информацию о несовершенном остеогенезе россияне встречают в СМИ (68% от числа осведомленных), треть опрошенных видели объявления о сборах на помощь «хрустальным» людям (32%).].

Аннотатор: [Чаще всего информацию о несовершенном остеогенезе россияне встречают в СМИ] → [Эти источники играют важнейшую роль в вопросах информированности граждан о данном заболевании]

Отсутствие более мелкой сегментации, чем предложение, вызывает очевидные грубые ошибки в случае подчинительных предлогов (чтобы, потому что, так как и пр.).

AI-1: [Чтобы спрогнозировать будущее фирмы – например определить, сколько прибыли она принесет владельцам в следующем году, – экономисты обычно используют регрессионные модели.] → [Рентабельность торговых компаний зависит от многих факторов: их размера, стратегии управления, умения выстраивать хорошие взаимоотношения с клиентами, а также глобальных кризисов.].

Предлог в данном случае вводит посылку, неважно, находится ли клауза-заключение до или после клаузы с предлогом. Это пример того, как, наряду с сегментацией на клаузы, работают индикаторы аргументации.

3.4.3. Ошибки неправильного определения направления связи

Часто модель находит связь между утверждениями, но неправильно осуществляет выбор ролей «посылка» – «заключение».

Во многих случаях порядок утверждений в тексте таков, что посылка предшествует заключению (непосредственное следование необязательно, т.к. возможна не одна посылка), допускается и переход через абзац. Кажется, что модель твёрдо выучила это правило.

AI-1: [Таким людям нужно себя беречь, «как хрустальную вазу», поэтому их называют «хрустальными».] → [Это редкая генетическая болезнь, при которой не вырабатывается кальций, поэтому кости становятся хрупкими и ломкими.]

Эксперт считает такую связь возможной. У аннотатора не так, ввиду разделения сложных предложений на причинные и главные (следствия), но в целом направление связи верное: посылка до заключения, иногда с переходом через абзац.

Правило действует далеко не всегда, например, детализирующие посылки (пример, признак, классификация) следуют после заключения, и модель в некоторых случаях следует этому правилу.

AI-1: [Шимпанзе, например, в тестах на склонность к обману, всегда показывают гораздо лучшие результаты, чем люди.] → [А если бы эгоизм и агрессия каким-то образом были источниками человеческого успеха, было бы трудно объяснить неудачу наших собратьев-приматов.].

Хотя она почти всегда его нарушает, что особенно заметно на посылках, которые начинаются словами например, к примеру и пр. Очевидно, что примеры всегда приводятся после основного утверждения (заключения), но модель этого не предусматривает.

AI-1: [Вся коллекция занимает скромные 12,6 ТБ, хотя в неё вошли почти все компакт-диски и дискеты 90-х годов, которые удалось достать коллекционерам.] → [К примеру, файловый архив Discmaster содержит 133,7 млн файлов с десятка тысяч CD и дискет из коллекции Internet Archive.].

Индикаторы поэтому, следовательно возможны на уровне целых предложений: они вводят заключение, которое находится справа от посылки. И с такой задачей модель успешно справляется.

AI-1: [Банки были заинтересованы в том, чтобы выдавать как можно больше ипотечных кредитов, при этом их качество роли не играло.] → [Поэтому вскоре банки стали заключать субстандартные договоры – по ним заемщики получали кредит на жилье, которое де-факто не могли себе позволить.].

Из анализа ошибок AI-1 и их расхождений с анализом аннотатора можно сделать вывод, что, помимо сегментации, при установлении аргументативных связей необходимо учитывать положение утверждений в тексте относительно друг друга и положение индикаторов относительно соответствующих текстовых фрагментов.

Заключение

Рассмотрен комплексный подход к экспериментальному исследованию автоматического извлечения аргументативных отношений из текстов научной коммуникации, который включает методы генерации наборов данных, обучения НС-моделей и анализ результатов их работы. К особенностям предлагаемого подхода можно отнести применение его к исследованию русскоязычных текстов, принадлежащих к различным жанрам научного и научно-популярного стилей, интеграцию индикаторного подхода с методами глубокого обучения, использование методов перефразирования для пополнения наборов данных, комплексный подход к оценке результатов.

Проведённые исследования показали лучшие решения у модели, использующей индикаторы аргументации. Полученные результаты согласуются с результатами других исследований в данной области, подтверждают гипотезы о полезности индикаторов, а средняя оценка согласованности по связям аннотаций, построенных моделями, и экспертными аннотациями практически не отличается от согласованности аннотаций разных экспертов.

Следует отметить низкую согласованность между разметками разных аннотаторов, на основе которых генерируются наборы данных для обучения моделей. По-видимому, это связано с высокой вариативностью представления рассуждений и субъективностью их восприятия. Введение строгих формальных требований к аннотаторам должно улучшить ситуацию.