An integrated approach to the analysis of argumentative relationships in scientific communication texts

Cover Page

Cite item

Full Text

Abstract

The problem of automatic analysis of argumentation in scientific communication texts is considered. Argumentation is understood as an ordered set of arguments used to support a certain thesis. An argument includes at least one premise and one conclusion, connected by an argumentative relation. The purpose of the work is an experimental study of neural network approaches to solving the problem of searching and extracting argumentative relations between statements located closely in the text. The study was conducted on a corpus of texts with argumentative markup created using the previously developed web platform. The corpus included texts of scientific news, analytical articles from the Habr website, scientific articles and reviews. Datasets for machine learning were built based on these texts. To improve the quality of neural network models training, these sets were supplemented with new data by using automatic paraphrasing and double translation methods. Two approaches to training models were considered: the first one with labeling of indicators in texts and the second one with preliminary training of a language model on the task of predicting indicators. To evaluate the models performance, an approach was proposed based on estimates of agreement between experts, usually used to compare markups of manually created texts. A comparison of agreement coefficients between experts and trained models showed that the quality threshold for extracting argumentative relations was almost reached on the model with labeled indicators. A manual analysis of model errors was carried out by visualizing the obtained results. Thus, the novelty of the work lies in the application of an integrated approach to creating data sets, training models and evaluating the results obtained from the automatic extraction of argumentative relations.

Full Text

Введение

Аргументация – это упорядоченная совокупность аргументов, используемых для подтверждения некоторого тезиса. С этой целью формулируются суждения, которые обосновывают главный тезис непосредственно или с помощью промежуточных шагов. Каждый шаг такого обоснования рассматривается как аргумент, а способы объяснения – как типовые схемы рассуждений.

Анализ аргументации – это междисциплинарная область исследований, посвященная разработке теории аргументации, построению формальных моделей аргумента, выявлению сценариев рассуждений, типовых доводов за или против какого-либо утверждения и т.п. Появление таких формализмов, как модель С. Тулмина [1], схемы аргументации Д. Уолтона [2] и Х. Перельмана [3], периодическая таблица аргументов Ж. Вагеманса [4], формат представления аргументации [5] и построенная на его основе онтология аргументации [6] позволило развить прикладные исследования аргументации в области компьютерной лингвистики.

Интеллектуальный анализ аргументации AM (от англ. Argument Mining) – это направление исследований в области автоматической обработки текстов на естественном языке. Целью такого анализа является автоматическая идентификация и извлечение аргументативных структур из текста на естественном языке с помощью компьютерных программ [7]. К аргументативным структурам относятся: посылки, заключения, аргументы, отношения между компонентами аргументации, а также схемы рассуждений и типовые сценарии.

Модель аргументации влияет на выбор методов анализа аргументации, подготовку данных, оценку качества и на область применимости результатов анализа. Так, выбор простой модели, например модели абстрактной аргументации [8], не учитывающей структуры аргументов, существенно упрощает анализ, но сужает область применения результатов анализа, а выбор более сложной модели [1] не позволяет решить задачу извлечения аргументации, поскольку требуется привлечение средств семантического и прагматического анализа текста.

Известной моделью аргументации, используемой в практических системах анализа, является модель [9]. Эта модель позволяет описывать типовые модели рассуждений, используемые людьми, в виде схем аргументации, каждая из которых задаёт структуру одного аргумента. Около 60 схем аргументации приведено в [2], и список таких схем постоянно пополняется [10]. Важным достоинством модели [9] является наличие её формального описания в виде онтологии, что позволяет ускорить разработку программных компонент и использовать предшествующий опыт исследований.

Текст, коммуникативная задача которого не сводится только к информированию (объяснительный текст), несёт функцию убеждения аудитории в справедливости высказываемых в нём положений (аргументативный текст). Такими являются тексты, относящиеся к научной сфере общения, или функциональному стилю – Ф-стилю [11]. К научному Ф-стилю относятся научная и научно-популярная коммуникации. В данной работе к научно-популярной коммуникации отнесены новостные статьи (научные новости) и статьи с сайта habr.com/ru (habr-статьи). Целевой аудиторией таких текстов является широкая публика, которую автор текста считает необходимым убедить в истинности информации, изложенной в тексте. К научной коммуникации относятся научные статьи, рецензии и статьи с комментариями рецензента. Их целевая аудитория – это специалисты в научной области, к которой относится тематика текстов. Задача автора – убедить коллег в справедливости излагаемых им результатов научных исследований и/или высказать своё мнение.

При анализе аргументации, представленной в тексте на естественном языке, требуется не только извлекать аргументы и цепочки аргументов, подтверждающие или опровергающие некий тезис (абстрактная аргументация), но и исследовать структуру каждого аргумента, её роль и значимость для аргументации в целом (структурная аргументация). Таким образом, анализ аргументации направлен на автоматическое извлечение структурированных аргументов из неструктурированных текстов [7].

Задача анализа структурированной аргументации включает решение следующих подзадач, которые могут быть сформулированы как задачи классификации.

  • Поиск утверждений – фрагментов текста, являющихся компонентами аргументации.
  • Классификация утверждений в соответствии с набором ролей, используемых моделью представления аргументации.
  • Поиск аргументативных связей между утверждениями, образующими аргументы.
  • Классификация аргументов в соответствии с заданным наборов классов.

Целью данной работы является экспериментальное исследование различных подходов на основе нейросетевых (НС) моделей к решению задачи поиска и выделения аргументативных отношений между утверждениями, расположенными на относительно небольшом расстоянии друг от друга. Эксперименты проводились на русскоязычных текстовых корпусах с аргументативной разметкой, созданных группой специалистов-филологов.

1. Обзор связанных работ

Модели глубокого обучения DL (от англ. Deep Learning models) являются одними из инструментов в компьютерной лингвистике. Результаты современных DL-моделей извлечения аргументативных отношений сравнимы с результатами других моделей (см., например, метод опорных векторов SVM, от англ. Support Vector Machine). В работе [12] показано, что, несмотря на превосходство в классификации аргументативных утверждений модели BERT (от англ. Bidirectional Encoder Representations from Transformers), она уступает в эффективности извлечения аргументативных связей. В [13] рассматривается задача нахождения отношений между компонентами аргументов в эссе, написанных на английском языке не носителями языка. Определяются связи между предложениями, и на их основе формируется древовидная структура аргументации в тексте при помощи последовательного применения языковой модели BERT и нейронной сети BiLSTM (от англ. Bidirectional Long-Short Term Memory).

В данном исследовании используется гипотеза о важности роли индикаторов аргументации при автоматическом обнаружении аргументативных отношений в тексте. Это связано с влиянием, которое оказывают различные дискурсивные маркеры в структуризации текста [14], и с положительным опытом применения индикаторов. Так, в [15] исследована роль индикаторов в аргументативном дискурсе на материале немецкого корпуса, аргументы в котором аннотированы в соответствии с общей моделью аргументации «утверждение-предположение». Для определения различий между индикаторами, предсказывающими наличие посылок и заключений, ранжирования индикаторов по характеристике прироста информации проведены эксперименты с целью изучения характера индикаторов для заключений и посылок, в частности тест Фишера [16]. Эксперименты показали, что определённые семантические группы индикаторов аргументации указывают либо на заключения, либо на посылки и представляют достаточно точные признаки для их различения.

В [17] предложен подход к классификации компонентов аргументов на уровне токенов-слов. Классификация на уровне токенов улучшила результаты классификации предложений по сравнению с современными моделями, такими как Longformer, BERT и Legal-BERT, и показала, что определённые токены, являющиеся индикаторами аргументации, оказывают значительное влияние на результаты.

В [18] рассматривается задача маскированного языкового моделирования MLM (от англ. Masked Language Modeling), для предсказания выбираются индикаторы аргументации (Selective MLM, sMLM), и модель обучается распознавать роли в аргументе различных фрагментов текста. Эксперименты показали, что модель Longformer, настроенная при помощи предложенного sMLM подхода, превосходит другие модели и для извлечения компонента аргументов, и для предсказания отношений.

Таким образом, можно заключить, что значимые результаты достигаются с применением различных НС-моделей, а улучшение результатов работы моделей достигается при уточнении сегментации и использовании дополнительных данных для обучения.

2. Подготовка данных

При решении задач анализа аргументации в работе принят НС-подход, в котором объём обучающих данных напрямую влияет на качество результатов. Основой для создаваемого набора данных послужили корпуса текстов, аннотированных специалистами на платформе ArgNetBank Studio (https://uniserv.iis.nsk.su/arg) [19].

2.1. Корпусы с аргументативной разметкой

Разметка текстов проводилась в соответствии с моделью и набором схем аргументации, созданных на её основе [2]. В данной модели, аргумент – это структура, связывающая набор посылок с заключением, а тип связи каждой посылки с аргументом определяется схемой аргументации. Разметка каждого текста заключалась в моделировании его аргументационной структуры согласно стандарту AIF (от англ. Argument Interchange Format) [5, 20] посредством построения ориентированного связного графа с двумя типами вершин: информационными, которые соответствуют утверждениям, и вершинами-отношениями, представляющими связи между утверждениями.

Для создания корпуса научной коммуникации отобраны тексты, относящиеся к следующим жанровым категориям:

  • научно-популярная коммуникация: научные новости (30 текстов), habr-статьи (30 статей с комментариями);
  • научная коммуникация: научные статьи (50 статей), научные рецензии (30 текстов), научные статьи с комментариями рецензентов (10 текстов).

Корпус обладает следующими особенностями:

  • при сборе корпуса соблюдался принцип максимальной тематической нейтральности жанровых категорий;
  • тексты каждой категории характеризуются собственными жанровыми особенностями: средний размер, наличие и расположение главного тезиса, длина связей, типовые индикаторы, соотношение конфликтных и поддерживающих отношений;
  • количество конфликтных аргументов в корпусе невелико по сравнению с аргументами поддержки.

Размеченный корпус содержит 133 текста, аннотированные комментарии не учитывались. Создано 217 аннотаций и размечено 9783 аргумента. Под аннотацией здесь понимается разметка текста в виде графа аргументации, включающего множество утверждений и аргументативных связей (аргументов).

2.2. Построение наборов данных для машинного обучения

Для применения методов машинного обучения к задаче извлечения аргументативных связей необходимо:

  • создать наборы данных, содержащих положительные и отрицательные примеры пар утверждений на основе имеющейся разметки текста;
  • предложить дополнительные признаки, которые будут учитываться моделью при обучении и классификации;
  • разработать механизм предварительного построения гипотез по заданному тексту, т.е. определить, каким образом поданный на вход текст будет разбиваться на утверждения, и какие пары утверждений будут проверяться моделью.

Для решения данных задач предложено несколько подходов.

Для сегментации текста использованы три метода разбиения: на предложения; на клаузы на основе индикаторов; на клаузы на основе синтаксического разбора предложения. Под клаузой понимается простое предложение в составе сложного. Здесь, в связи с несовершенством программных реализаций, под клаузой понимаются фрагменты текста, выделенные автоматически на основе заданных формальных критериев – разделителей и найденных глагольных групп. Каждый такой фрагмент рассматривается в качестве гипотетического утверждения. Так, при сегментации на основе индикаторов каждый индикатор, найденный в середине предложения, рассматривался как разделитель на клаузы, а индикаторы со сложной структурой, включающие в своё определение разрыв, задавали дополнительные границы для выделения утверждений [21]. Для синтаксического анализа предложений использовался синтаксический анализатор из библиотеки spaCy (spacy.io). Результатом этого анализа является синтаксическое дерево разбора предложения, из которого выделялись глагольные группы и зависимые от них части предложения, каждая такая группа считалась отдельной клаузой.

Рассмотрено несколько вариантов использования индикаторов аргументации для дополнительного выделения значимой лексики в наборах данных. Использованы два варианта тегирования, т.е. пометки в тексте найденных индикаторов с помощью дополнительных символов [22]. Словарь индикаторов составлялся вручную или полуавтоматически на основе индикаторов, выделенных экспертами при разметке [23] (доступен на платформе ArgNetBank Studio).

В качестве механизма подбора пар утверждений для классификации выбран подход на основе скользящего окна, включающего два подряд идущих сегмента (предложение и/или клауза). Для каждой пары сегментов проверялось, являются ли они утверждениями одного аргумента и какое место занимают в структуре данного аргумента. На основе полученной информации принималось решение о наличии и направленности аргументативной связи. Поскольку в аргументах может быть несколько посылок, то каждому аргументу может быть сопоставлено несколько аргументативных связей.

Для апробации предложенных подходов подготовлено пять наборов данных, на которых проведены эксперименты с различными НС-моделями.

2.3. Статистическая оценка характера аргументативных связей

В наборы данных помещались только контактные утверждения, поэтому проведено дополнительное исследование с целью оценки степени попадания размеченных аннотаторами связей в выборку. Рассмотрено несколько вариантов взаиморасположения утверждений, относящихся к одному аргументу (посылка и заключение).

Статистическая оценка встречаемости аргументативных связей в корпусе «Научная коммуникация» показала следующие результаты: внутри предложения 29.6%, внутри абзаца 30.6%, соседние абзацы 15.5%, дальние связи 24.3%.

На основе проведённого анализа можно сделать следующие выводы.

  • Почти 30% аргументативных связей – это связи между фрагментами одного предложения, что говорит о том, что сегментация текста по предложениям слишком грубая и необходимо разделение предложений на более мелкие сегменты.
  • Около 30% случаев относятся к связям между утверждениями внутри одного абзаца (исключая первую группу связей внутри одного предложения), а в соседних абзацах находится почти 16% связанных утверждений.
  • Дальние связи, т.е. связи между утверждениями, которые разделены больше чем одним абзацем, составляют четверть всех утверждений.

В целом, полученные оценки свидетельствует о том, что аргументы расположены компактно и предложенные стратегии выбора пар утверждений для проверки на наличие аргументативной связи покрывают большинство случаев.

2.4. Автоматическое расширение наборов данных

В настоящее время существуют способы автоматически перефразировать имеющийся текст. Автоматическое перефразирование позволяет увеличить набор обучающих данных. В работе применены методы двойного перевода и прямого автоматического перефразирования для увеличения объёма наборов данных, построенных из пар предложений. Для двойного перевода применялись трансформерные модели [24], а для прямого перефразирования использовалась модель [25]. Параметры моделей установлены таким образом, чтобы перефразированные тексты не содержали n-граммы из оригинала длиной более трёх. Каждое предложение было перефразировано двумя методами. Для повышения качества прямого перефразирования для каждого оригинального предложения генерировалось до пяти альтернативных вариантов, из которых выбирался ближайший по смыслу к оригиналу. Смысловое сходство предложений оценивалось с помощью модели LaBSE (от англ. Language-agnostic BERT Sentence Embedding), которая обучена векторизовать предложения так, чтобы векторы близких по смыслу предложений были близки геометрически.

В результате первоначальный набор данных расширен в три раза. Для оценки качества текстовых данных, полученных автоматически, было выполнено сравнение их с оригиналом по ключевым характеристикам [26]:

  • Sm – смысловое сходство перефразированных предложений с оригинальными;
  • SmR– среднее случайное смысловое сходство;
  • BLEU – широко применяемая мера визуального сходства текстов;
  • Px – характеристика осмысленности полученных предложений.

Характеристики наборов данных, полученных методами автоматического перефразирования, приведены в таблице 1.

 

Таблица 1 – Качественные характеристики наборов данных, полученных автоматически

Метрика

Метод

RuT5-based
(модель трансформера для русского языка)

Двойной перевод

PxO

3,954158

SmR

0,30477

0,30716

Sm

max

1,0

1,0

min

0,061837

0,060978

mean

0,939011

0,901177

α0.5

0,859084

0,751589

BLEU

max

1,0

1,0

min

0,0

0,0

mean

0,556067

0,491569

Px

max

9,22531

9,3763

min

0,42986

0,2573

mean

4,59661

3,99337

α0.95

6,1016

5,5902

 

Из таблицы 1 видно, что оба полученных набора обладают сходным смысловым разнообразием (близкие значения SmR) и заметными визуальными отличиями от оригинала (средние показатели BLEU). Тексты, полученные прямым перефразированием, в среднем ближе по смыслу к оригинальным. Квантиль α0.5 характеристики Sm показывает, что смысловое сходство 95% автоматически сгенерированных фраз превосходит 0,85 и 0,75 соответственно. Сгенерированные наборы данных достаточно близки по смыслу к оригиналу. При этом полученные данные отличаются от исходных достаточно, чтобы их можно было считать новыми и сходными по стилистике и языку.

3. Извлечение аргументативных отношений

Для извлечения аргументативных отношений использовался метод машинного обучения на основе глубоких НС с привлечением больших языковых моделей. Данные для экспериментов были представлены в следующем формате:

left_statement | right_statement | left_arg | right_arg | relation | pattern, где

  • два утверждения, идущих подряд (left_statement, right_statement), в зависимости от способа построения набора данных могут быть предложениями либо клаузами, полученными одним из двух способов, описанных в подразделе 2.2;
  • левый (left_arg) и правый (right_arg) аргументы – признаки наличия компонентов аргументации в соответствующем утверждении; принимают значения от 0 до 3, где 0 соответствует отсутствию аргумента, 1 – наличию посылки в утверждении, 2 – наличию заключения и 3 – наличию посылки и заключения одновременно;
  • отношение (relation) – признак наличия аргументативного отношения между левым и правым утверждениями; принимает значения 1, если утверждения являются компонентами одного аргумента и связь направлена от левого утверждения к правому (т.е. в левом утверждении находится посылка, а в правом – заключение), 2 – связь направлена от правого утверждения к левому, 0 – отсутствие связи;
  • индикатор (pattern) – название найденного индикатора аргументации (при наличии).

3.1. Сценарий экспериментального исследования

Для представления русского текста использовалась модель ruRoberta (ai-forever/ruRoberta-large) [27], на основе которой строились эмбеддинги утверждений. На вход модели подавались два утверждения, разделённые специальным токеном </s>, выходное представление токена <s> использовалось в качестве векторного представления отношения между двумя утверждениями. Был применён классификатор с двумя полносвязными слоями и активационной функцией ReLU между ними. Для получения вероятности наличия аргументативной связи применялась функция Softmax.

При обучении моделей рассмотрены два подхода: маркирование индикаторов в утверждениях; предварительное обучение языковой модели на вспомогательной задаче предсказания индикаторов.

Первый подход заключался в модификации набора данных (см. подраздел 2.2.). Было проверено два варианта тегирования индикаторов: специальным знаком пунктуации «*» и специальным новым токеном <marker>, который добавлен в словарь токенизатора.

Второй подход отличается тем, что токены маскируются не случайно, а выбираются слова и конструкции, указывающие на наличие аргументации в тексте, т.е. индикаторы аргументации. Правильное предсказание пропущенного индикатора аргументации предполагает «понимание» аргументативной связи между фрагментами текста, являющимися контекстами этого индикатора [18]. В этом подходе модель ruRoberta дополнительно обучена предсказывать пропущенные индикаторы на корпусе научно-популярных текстов, содержащих 2913 предложений.

3.2. Результаты экспериментов

При обучении моделей использованы следующие параметры: коэффициент скорости обучения (learning rate) = 1.0e-06, размер пакета (batch size) = 16, количество эпох = 15, вероятность исключения (dropout) = 20%. При использовании расширенного набора данных количество эпох было сокращено до 8. Предобучение на задаче предсказания индикаторов проводилось в течение 15 эпох со скоростью обучения 3.0e-05.

Качество моделей оценивалось по значениям полноты, точности, F1-меры и площади под ROC-кривой (ROC-AUC) с помощью процедуры перекрестной проверки (cross-validation) с разбиением на пять частей. Результаты представлены в таблице 2.

 

Таблица 2 – Результаты экспериментов по предсказанию наличия аргументативной связи

Модель

Полнота

Точность

F1-мера

ROC-AUC

Предложения

baseline

66,84

35,07

46,00

74,37

indicators (*)

65,98

36,39

46,91

74,65

indicators (new token)

64,10

35,18

45,43

73,34

indicators (pretrain)

64,52

35,27

45,61

73,85

baseline + augmentation

58,10

38,00

45,95

74,70

indicators (*) + augmentation

64,44

36,94

46,96

74,49

Предложения и клаузы

baseline

56,30

30,72

39,75

68,72

indicators (*)

56,33

31,86

40,70

69,57

indicators (pretrain)

65,02

28,94

40,05

68,81

Предложения и контексты индикаторов

baseline

52,05

44,23

47,82

74,16

indicators (*)

51,99

43,86

47,58

73,94

indicators (pretrain)

50,41

41,81

45,71

72,53

 

В таблице использованы обозначения: baseline – базовая модель, indicators – модель, использующая информацию об индикаторах. В скобках уточняется использованный подход: indicators (*), indicators (new token) – тегирование индикаторов, indicators (pretrain) – предобучение на вспомогательной задаче предсказания индикаторов. Модели, обученные на расширенном наборе данных: baseline + augmentation и indicators (*) + augmentation.

Тегирование индикаторов в предложениях увеличило точность предсказания аргументативной связи. Токен «*» показал себя лучше, чем введение нового токена, улучшив также и F1-меру. Предобучение на задаче предсказания индикаторов, в отличие от работы [18], не показало значительного улучшения. Причина этого, возможно, заключается в том, что для данной задачи использовался корпус небольшого объёма. Согласно значению F1-меры лучшие результаты показала модель, обученная на расширенном наборе данных с тегированием индикаторов специальным символом «*».

Сегментация на клаузы с помощью синтаксического анализа предложения породила большое количество вариантов пар соседних утверждений, что негативно сказалось на качестве обученного на таких парах классификатора. При предсказании наличия связей между утверждениями, полученными сегментацией с помощью индикаторов, дополнительное тегирование индикаторов не дало прироста качества.

3.3. Оценка согласованности аннотаций

Другой подход к оценке качества полученного решения – это сравнение аннотаций, построенных экспертом и классификатором. Обычно данный подход применяется для оценки согласия между экспертами-аннотаторами. Его можно использовать и для оценки степени расхождения между графами аргументации, построенными автоматически и вручную.

Для сравнения текстовых аннотаций используются различные оценки согласованности, основанные на статистических и вероятностных моделях. Под согласованностью понимается степень, в которой процесс может быть повторен разными исследователями [28], что определяет надёжность и воспроизводимость результатов. В работе [29] указано, что выбор метода оценки сильно зависит от специфики данных, а для текстового контента показатели обычно занижены из-за невозможности формального выделения границ.

Специфика анализа разногласий аннотаторов при аргументативной разметке текста рассмотрена для англоязычных юридических текстов, размеченных по модели аргументов [30], а также при разметке политических текстов на шведском языке по стандарту AIF и схемам [31]. Расхождения между разметчиками на трёх уровнях аргументационной структуры анализировались при: выделении тезисов, построении связей и определении моделей рассуждения. Для данного исследования актуальны только первые две оценки.

Для оценки согласованности аннотаций текстов с аргументативной разметкой, выполненных разными аннотаторами, разработан алгоритм на основе подхода из [32], который был усовершенствован для получения объективной оценки корпуса «Научная коммуникация». Предложенный алгоритм опирается на следующие понятия. Каждая аннотация состоит из множества утверждений S и множества аргументов, построенных на этих утверждениях. Каждый аргумент включает в себя несколько дуг (начало – одна из посылок, конец – заключение). Если заключением текущего аргумента является другой аргумент, то в качестве конца дуги берётся заключение этого аргумента (примером такого аргумента является схема типа «конфликт»). Таким образом получено множество дуг E для аннотации.

Если у текста есть несколько аннотаций, то они сравниваются попарно. В итоге для каждой пары аннотаций получают два коэффициента согласия для утверждений и дуг. Эти коэффициенты рассчитываются по следующим формулам.

Коэффициент согласия по утверждениям:

agreementSS1,S2= min|S^1,|S^2maxS^1,S^2+S1\S^1+S2\S^2,

где S^1=s1|s1S1,s2S2, sims1,s2T, S^2=s2|s2S2,s1S1, sims1,s2T, sims1,s2=maxs^s1,s^s2, s^=s1s2.

В нашем подходе каждое утверждение представляются интервалом (или набором интервалов в случае разрывного утверждения), границами которого являются позиции в тексте, поэтому пересечение утверждений вычисляется как пересечение интервалов. Порог схожести T выбран равным 0,75. Это похоже на стандартную меру: мощность пересечения двух множеств, делённая на мощность их объединения. Усложнение формулы возникает из-за того, что мощности пересечений в этих двух множествах могут не совпадать, т.к. один интервал из одного множества может пересекаться с несколькими интервалами из другого множества. Это может возникать как из-за выбранного порога схожести, так и из-за того, что один аннотатор разметил часть текста как одно утверждение, а другой на этой же части текста выделил несколько утверждений.

Коэффициент согласия по дугам:

agrementEE1,E2=min(|E^1,|E^2)maxE1,E2,

где Ei={e|e=s1,s2,s1,s2Si'}, E^1={e1|e1E1,e2E2,e1e2}, E^2={e2|e2E2,e1E1,e1e2}, e1e2e1=s11,s21,e2=s12,s22, sims11,s12T,sims21,s22T.

Суть та же, что и для формулы выше: мощность множества совпадающих дуг, делённая на мощность множества всех дуг, соединяющих утверждения из пересечения. Одна дуга из первой аннотации может соответствовать нескольким дугам из второй аннотации, т.к. одно утверждение может соответствовать нескольким.

Для сравнения аннотаций экспертов и аннотаций, полученных с помощью машинного обучения, введён дополнительный коэффициент согласия по контактным дугам – agreementEC. Контактная дуга – это дуга, у которой между утверждениями, являющимися её вершинами, нет слов, не входящих в эти утверждения. Этот коэффициент вычисляется как и agreementE, только в расчёте не принимают участия дуги, не являющиеся контактными.

После расчёта коэффициентов согласия для всех текстов из корпуса вычисляется среднее арифметическое для каждого типа коэффициента.

Вначале была вычислена общая оценка согласия между экспертами для текстов, в которых имелось несколько аннотаций (22 текста из корпуса «Научная коммуникация»), а затем получены оценки согласия между экспертами и двумя моделями (средние коэффициенты по парам аннотаций эксперт – модель). Обе модели обучены на наборе данных с разбивкой по предложениям и с выделенными в тексте индикаторами (indicators (*)). Первая модель (AI-1) использовала все размеченные данные, присутствующие на платформе ArgNetBank, а вторая (AI-2) – только наборы данных, полученные по корпусу «Научная коммуникация».

Приведённые в таблице 3 оценки показывают, что:

  • при выделении аргументативных утверждений (agreementS) согласие между экспертами (<expert> : <expert>) и экспертами и моделями (<expert> : <AI>) отличаются на 33,28% и 19,65% соответственно, это, по-видимому, означает, что используемые способы сегментации были недостаточны;
  • при выделении контактных аргументативных связей (agreementEC) модели машинного обучения уступают экспертам значительно в меньшей степени (на 6,06% и 0,3% соответственно), что говорит об адекватности работы моделей для близко расположенных утверждений;
  • модель AI-1 уступает AI-2, что, по-видимому, связано с лучшим качеством разметки на корпусе «Научная коммуникация»: отсутствуют неполные разметки, разметки, сделанные студентами, а также разметки, сделанные на основе абстрактной модели аргументации.
  •  

Таблица 3 – Усреднённая оценка согласованности аннотаций

Тип аннотаций

agreementS , %

agreementE , %

agreementEC , %

<expert> : <expert>

58,4

32,27

30,31

<expert> : <AI-1>

25,12

-

24,25

<expert> : <AI-2>

38,75

-

30,01

 

Оценка согласия между экспертами по сути задаёт максимальный порог качества, который можно достигнуть на текущих наборах данных. На практике это означает, что после того, как модели достигнут тех же оценок согласия с экспертами, что и сами эксперты, дальнейшее их улучшение будет невозможным, пока не будут получены лучшие оценки согласия между экспертами. В случае контактных отношений такой порог практически достигнут.

3.4. Анализ результатов

Анализ расхождения между аннотациями, построенными автоматически и вручную, проводился независимым экспертом. С этой целью на платформу были загружены графы аргументации, полученные с помощью модели AI-1. Анализ результатов выявил следующие типовые ошибки, которые делает модель AI-1.

3.4.1. Ошибки сегментации на предложения
  • Заголовки новостных текстов, не имеющих в конце точки, не были рассмотрены моделью как отдельные предложения и потому не включались в аргументацию.
  • Недоработка правил выделения предложений при сегментации: имеются неучтённые сокращения с точкой, такие как инициалы и сокращения, наличие которых может привести к неполноте утверждения и неадекватности соответствующих связей.
    AI-1: [Молодые люди до 25 лет также чаще других указывают на тех, кто имеет нарушения опорно-двигательного аппарата, и членов их семей – 19% vs.] [частные благотворители и НКО занимают второе и третье места у молодежи 18-24 лет (26% и 21%)…].
3.4.2. Ошибки, связанные с отсутствием сегментации на клаузы

Поскольку модель при сегментации выделяет предложения, но не выходит на уровень клауз, то большое количество ошибок связано именно с этим: не генерируются связи, которые аннотаторы формируют между клаузами.

  • В исходном предложении,
    AI-1: [Другое исследование, проведённое в том же году, показало, что кофе связан с вероятным снижением риска развития нескольких форм рака, а также сердечно-сосудистых заболеваний, болезни Паркинсона и диабета второго типа.],

которое модель связывает с другими целиком, аннотатор видит несколько фрагментов, утверждений и связей.

Аннотатор: [Другое исследование, проведённое в том же году, показало, что] [кофе связан] [с вероятным снижением риска развития нескольких форм рака, а также сердечно-сосудистых заболеваний, болезни Паркинсона и диабета второго типа.].

  • Однако многие уникальные для AI-1 связи фактически моделируют те же отношения, которые построил аннотатор, но без выделения в утверждении посылки и/или заключения фрагментов, соответствующих вложенным простым предложениям или клаузам в составе целого предложения. Это нельзя в полной мере признать ошибкой.

AI-1: [Эта разработка имеет важное значение для обеспечения точных и своевременных данных о погоде, что поможет в принятии решений и планировании в различных сферах жизни, от сельского хозяйства до экологии.] → [Так, в настоящий момент молодой ученый, постдок и ведущий научный сотрудник кафедры океанологии ЮФУ Денис Кривогуз занимается разработкой программного обеспечения с применением искусственного интеллекта, которое облегчит долгосрочное прогнозирование температуры воздуха и уровня атмосферных осадков в Ростовской области.].

Аннотатор: [что поможет в принятии решений и планировании в различных сферах жизни, от сельского хозяйства до экологии.] [Так, в настоящий момент молодой ученый…].

  • Анализ аннотатора часто отличается ввиду разделения предложения-посылки, имеющего в составе перечисление (однородные члены), на отдельные утверждения.

AI-1: [Эти источники играют важнейшую роль в вопросах информированности граждан о данном заболевании, остальные звучат в ответах гораздо реже.] → [Чаще всего информацию о несовершенном остеогенезе россияне встречают в СМИ (68% от числа осведомленных), треть опрошенных видели объявления о сборах на помощь «хрустальным» людям (32%).].

Аннотатор: [Чаще всего информацию о несовершенном остеогенезе россияне встречают в СМИ] [Эти источники играют важнейшую роль в вопросах информированности граждан о данном заболевании]

  • Отсутствие более мелкой сегментации, чем предложение, вызывает очевидные грубые ошибки в случае подчинительных предлогов (чтобы, потому что, так как и пр.).

AI-1: [Чтобы спрогнозировать будущее фирмы – например определить, сколько прибыли она принесет владельцам в следующем году, – экономисты обычно используют регрессионные модели.] [Рентабельность торговых компаний зависит от многих факторов: их размера, стратегии управления, умения выстраивать хорошие взаимоотношения с клиентами, а также глобальных кризисов.].

Предлог в данном случае вводит посылку, неважно, находится ли клауза-заключение до или после клаузы с предлогом. Это пример того, как, наряду с сегментацией на клаузы, работают индикаторы аргументации.

3.4.3. Ошибки неправильного определения направления связи

Часто модель находит связь между утверждениями, но неправильно осуществляет выбор ролей «посылка» – «заключение».

  • Во многих случаях порядок утверждений в тексте таков, что посылка предшествует заключению (непосредственное следование необязательно, т.к. возможна не одна посылка), допускается и переход через абзац. Кажется, что модель твёрдо выучила это правило.

AI-1: [Таким людям нужно себя беречь, «как хрустальную вазу», поэтому их называют «хрустальными».] [Это редкая генетическая болезнь, при которой не вырабатывается кальций, поэтому кости становятся хрупкими и ломкими.]

Эксперт считает такую связь возможной. У аннотатора не так, ввиду разделения сложных предложений на причинные и главные (следствия), но в целом направление связи верное: посылка до заключения, иногда с переходом через абзац.

  • Правило действует далеко не всегда, например, детализирующие посылки (пример, признак, классификация) следуют после заключения, и модель в некоторых случаях следует этому правилу.

AI-1: [Шимпанзе, например, в тестах на склонность к обману, всегда показывают гораздо лучшие результаты, чем люди.] [А если бы эгоизм и агрессия каким-то образом были источниками человеческого успеха, было бы трудно объяснить неудачу наших собратьев-приматов.].

Хотя она почти всегда его нарушает, что особенно заметно на посылках, которые начинаются словами например, к примеру и пр. Очевидно, что примеры всегда приводятся после основного утверждения (заключения), но модель этого не предусматривает.

AI-1: [Вся коллекция занимает скромные 12,6 ТБ, хотя в неё вошли почти все компакт-диски и дискеты 90-х годов, которые удалось достать коллекционерам.] [К примеру, файловый архив Discmaster содержит 133,7 млн файлов с десятка тысяч CD и дискет из коллекции Internet Archive.].

  • Индикаторы поэтому, следовательно возможны на уровне целых предложений: они вводят заключение, которое находится справа от посылки. И с такой задачей модель успешно справляется.

AI-1: [Банки были заинтересованы в том, чтобы выдавать как можно больше ипотечных кредитов, при этом их качество роли не играло.] [Поэтому вскоре банки стали заключать субстандартные договоры – по ним заемщики получали кредит на жилье, которое де-факто не могли себе позволить.].

Из анализа ошибок AI-1 и их расхождений с анализом аннотатора можно сделать вывод, что, помимо сегментации, при установлении аргументативных связей необходимо учитывать положение утверждений в тексте относительно друг друга и положение индикаторов относительно соответствующих текстовых фрагментов.

Заключение

Рассмотрен комплексный подход к экспериментальному исследованию автоматического извлечения аргументативных отношений из текстов научной коммуникации, который включает методы генерации наборов данных, обучения НС-моделей и анализ результатов их работы. К особенностям предлагаемого подхода можно отнести применение его к исследованию русскоязычных текстов, принадлежащих к различным жанрам научного и научно-популярного стилей, интеграцию индикаторного подхода с методами глубокого обучения, использование методов перефразирования для пополнения наборов данных, комплексный подход к оценке результатов.

Проведённые исследования показали лучшие решения у модели, использующей индикаторы аргументации. Полученные результаты согласуются с результатами других исследований в данной области, подтверждают гипотезы о полезности индикаторов, а средняя оценка согласованности по связям аннотаций, построенных моделями, и экспертными аннотациями практически не отличается от согласованности аннотаций разных экспертов.

Следует отметить низкую согласованность между разметками разных аннотаторов, на основе которых генерируются наборы данных для обучения моделей. По-видимому, это связано с высокой вариативностью представления рассуждений и субъективностью их восприятия. Введение строгих формальных требований к аннотаторам должно улучшить ситуацию.

×

About the authors

Elena A. Sidorova

A.P. Ershov Institute of Informatics Systems of Siberian Branch of RAS

Author for correspondence.
Email: lsidorova@iis.nsk.su
ORCID iD: 0000-0001-8731-3058
Scopus Author ID: 41961707000
ResearcherId: K-2432-2018

(b. 1977) graduated from the Novosibirsk State University in 2000, PhD (2006). She is a Senior Researcher of the Laboratory of Artificial Intelligence at the A.P. Ershov Institute of Informatics Systems (No-vosibirsk, Russia), Associate Professor at Novosibirsk State University. She is a member of Russian and European Associations for Artificial Intelligence. Dr. Sidorova has more than 160 peer-reviewed publications in the field of Computational Linguistics, Intelligent System Development, Knowledge and Ontology Engineering.

Russian Federation, Novosibirsk

Irina R. Akhmadeeva

A.P. Ershov Institute of Informatics Systems of Siberian Branch of RAS

Email: i.r.akhmadeeva@iis.nsk.su
ORCID iD: 0000-0002-7371-1087
Scopus Author ID: 57188681471
ResearcherId: K-3145-2018

(b.1991) graduated from the Novosibirsk State University in 2015. She is a Junior Re-searcher at the A.P. Ershov Institute of Informatics Systems of the Siberian Branch of Russian Academy of Science, Assistant Lecturer at the Novosibirsk State University. She is the author of about 30 publications in the fields of AI, Intelligent System Development and NLP.

Russian Federation, Novosibirsk

Yury A. Zagorulko

A.P. Ershov Institute of Informatics Systems of Siberian Branch of RAS

Email: zagor@iis.nsk.su
ORCID iD: 0000-0002-7111-6524
Scopus Author ID: 23394231500
ResearcherId: R-1826-2016

(b.1957) graduated from the Novocherkassk Polytechnic Institute in 1979, PhD (1989). He is the Head of Laboratory at the A.P. Ershov Institute of Informatics Systems of the Siberian Branch of RAS, As-sociate Professor at Novosibirsk State University. He is a member of Russian and European Associations for Artificial Intelligence. He is the author of more than 290 publications in the fields of AI, Knowledge and Ontology Engineering, Intelligent System Development, and Computational Linguistics.

Russian Federation, Novosibirsk

Irina S. Kononenko

A.P. Ershov Institute of Informatics Systems of Siberian Branch of RAS

Email: irina_k@cn.ru
ORCID iD: 0000-0001-5057-6807
Scopus Author ID: 41961368100
ResearcherId: AAO-1317-2020

(b. 1953) graduated from the Novosibirsk State University in 1975. She is a Senior Researcher in the Laboratory of Artificial Intelligence at the A.P. Ershov Institute of Informatics Systems (Novosibirsk, Russia). She has more than 100 peer-reviewed publications in the field of Computational Linguistics, Intelligent System Development, Multi-agent Systems, and Knowledge Representation.

Russian Federation, Novosibirsk

Alexey S. Sery

A.P. Ershov Institute of Informatics Systems of Siberian Branch of RAS

Email: alexey.seryj@iis.nsk.su
ORCID iD: 0000-0001-8275-4700
Scopus Author ID: 56403204900
ResearcherId: K-1557-2018

(b.1987) graduated from the Novosibirsk State University (2010) and hold the position of Junior Researcher at the A.P. Ershov Institute of Informatics Systems of the Siberian Branch of RAS. He is the author of more than 30 papers in the fields of Knowledge Representation and Computational Linguistics.

Russian Federation, Novosibirsk

Polina M. Chagina

A.P. Ershov Institute of Informatics Systems of Siberian Branch of RAS

Email: p.chagina@gmail.com
ORCID iD: 0000-0002-1595-7695

(b. 1999) graduated from the Novosibirsk State University in 2023. She is a program-mer of the 2nd category at the A.P. Ershov Institute of Informatics Systems SB RAS. The list of scientific works includes 7 works in the field of computational linguistics and ontological engineering.

Russian Federation, Novosibirsk

Vladimir K. Shestakov

A.P. Ershov Institute of Informatics Systems of Siberian Branch of RAS

Email: shestakov@iis.nsk.su
ORCID iD: 0000-0001-5976-1048
Scopus Author ID: 56439120800
ResearcherId: J-8288-2018

(b. 1986) graduated from the Novosibirsk State University in 2009. He is a Junior Researcher of the Artificial Intelligence Laboratory at the A.P. Ershov Institute of Informatics Systems (Novosibirsk, Russia). He is the author of more than 30 publications in the field of developing information systems, including using wiki technologies and ontologies.

Russian Federation, Novosibirsk

References

  1. Toulmin S. The Uses of Argument. Cambridge University Press; 2003. 262 p.
  2. Walton D, Reed C, Macagno F. Argumentation schemes. Cambridge University Press; 2008.
  3. Perelman C, Olbrechts-Tyteca L. The new rhetoric. A treatise on argumentation. Notre Dame: University of Notre Dame Press; 1969. 576 p. doi: 10.2307/j.ctvpj74xx
  4. Wagemans JHM. (2016). Constructing a Periodic Table of Arguments. In: L. Benacquista, & P. Bondy (ed.): Argumentation, Objectivity and Bias, proc. of the Ontario Society for the Study of Argumentation Conference. University of Windsor; 2016; 11.
  5. Rahwan I, Reed C. The argument interchange format. In: G. Simari, I. Rahwan (ed.): Argumentation in Artificial Intelligence. Boston: Springer, 2009: 383-402.
  6. Cerutti F, Toniolo A, Norman TJ, Bex F, Rahwan I, Reed C. AIF-EL – an OWL2-EL compliant AIF ontology. In: Computational Models of Argument, proc. of COMMA 2018. IOS Press, 2018; 305: 455-456.
  7. Lippi M, Torroni P. Argumentation Mining: State of the Art and Emerging Trends. ACM Transactions on Internet Technology. 2016; 16(2); No. 10: 1-25. doi: 10.1145/2850417
  8. Besnard P, Garcia A, Hunter A, Modgil A, Prakken H, Simari G, Toni F. Introduction to structured argumentation. Argument & Computation. 2014, 5(1): 1-4.
  9. Walton D. Argumentation theory: A very short introduction. In: G. Simari, I. Rahwan (ed.): Argumentation in Artificial Intelligence. Boston: Springer, 2009: 1-22.
  10. Kononenko IS, Zagorulko YuA, Sery AS, Sidorova EA, Shestakov VK. Classification of typical models of reasoning and their application to the study of argumentation in scientific communication texts [In Russian]. In: Knowledge-Ontology-Theory, proc. of Russian Conf. KNOTH 2023. Novosibirsk. Sobolev Institute of Mathematics; Novosibirsk State University, 2023: 178-187.
  11. Kibrik AA. Modus, genre and other parameters of discourse classification [In Russian]. Topics in the study of languages. 2009; 2: 3-21.
  12. Chen T. BERT Argues: How Attention Informs Argument Mining. Honors Theses; 1589, 2021.
  13. Putra JWG, Teufel S, Tokunaga T. Multi-Task and Multi-Corpora Training Strategies to Enhance Argumentative Sentence Linking Performance. In: Argument Mining, proc. of the 8th Int. Workshop. Punta Cana: Association for Computational Linguistics, 2021: 12-23.
  14. Prasad R, Miltsakaki E, Dinesh N, Lee A, Joshi A. The Penn Discourse Treebank 2.0 Annotation Manual. Pennsylvania: Institute for Research in Cognitive Science, University of Pennsylvania; 2007. 99 p.
  15. Eckle-Kohler J, Kluge R, Gurevych I. On the role of discourse markers for discriminating claims and premises in argumentative discourse. In: Empirical Methods in Natural Language, proc. of the Conf. 2015. Lisbon: Association for Computational Linguistics, 2015: 2236-2242.
  16. Fisher RA. Statistical Methods for Research Workers. London: Oliver and Boyd, 1932.
  17. Xu H, Ashley K. Multi-Granularity Argument Mining in Legal Texts. In: Legal Knowledge and Information Systems. IOS Press; 2022: 261-266.
  18. Dutta S, Juneja J, Das D, Chakraborty T. Can Unsupervised Knowledge Transfer from Social Discussions Help Argument Mining? In: Proc. of the 60th Annual Meeting of the Association for Computational Linguistics, vol. 1: Long Papers. Dublin: Association for Computational Linguistics, 2022: 7774-7786.
  19. Sidorova EA, Akhmadeeva IR, Zagorulko YuA, Sery AS, Shestakov VK. Research platform for the study of argumentation in popular science discourse [In Russian]. Ontology of designing. 2020; 10(4): 489-502. doi: 10.18287/2223-9537-2020-10-4-489-502
  20. Zagorulko YuA, Garanina NO, Borovikova OI, Domanov OA. Argumentation modeling in popular science discourse using ontologies [In Russian]. Ontology of designing. 2019; 9(4): 496-509. doi: 10.18287/2223-9537-2019-9-4-496-509.
  21. Sidorova EA, Akhmadeeva IR, Kononenko IS, Chagina PM. Argument Extraction Based on the Indicator Approach. Pattern Recognition and Image Analysis. 2023; 33(3): 498-505. doi: 10.1134/S1054661823030410
  22. Alibaeva K, Loukachevitch N. Analyzing COVID-related Stance and Arguments using BERT-based Natural Language Inference. In: Computational Linguistics and Intellectual Technologies, proc. of the Int. Conf. “Dialogue 2022”. 2022: 8-17.
  23. Kononenko IS, Akhmadeeva IR, Sidorova EA. Linguistic Aspects of Ontology-based Argumentation Study [In Russian]. In: Information and mathematical technologies in science and management. 2020; 4(20): 44-55. doi: 10.38028/ESI.2020.20.4.004
  24. Ng N, Yee K, Baevski A, Ott M, Auli M, Edunov S. Facebook FAIR's WMT19 news translation task submission. arXiv preprint: 1907.06616. 2019.
  25. Fenogenova A. Russian paraphrasers: Paraphrase with transformers. In: Balto-Slavic Natural Language Processing, proc. 8th Workshop, Ukraine. 2021.
  26. Sidorova EA, Zagorulko YuA, Kononenko IS, Sery AS, Chagina PM. Approach to building a dataset for the problem of extracting argumentative relations [In Russian]. In: Artificial Intelligence, proc. of XXI Russian Conf. RCAI-2023 (Smolensk, October 16-20, 2023). Smolensk: Print-Express, 2023; 1: 211-222.
  27. Zmitrovich D, Abramov A, Kalmykov A, Tikhonova M, Taktasheva E, Astafurov D, Baushenko M, Snegirev A, Shavrina T, Markov S, Mikhailov V, Fenogenova A. (2023). A Family of Pretrained Transformer Language Models for Russian. ArXiv, abs/2309.10931.
  28. Krippendorff K. Content Analysis: An Introduction to Its Methodology. Thousand Oaks: SAGE, 2004.
  29. Oleinik AN, Popova IP, Kirdina SG, Shatalova TY. Reliability and validity in content text analysis: selection of indicators [In Russian]. In: Psychological Journal, 2014; 35(6): 99-113.
  30. Teruel M, Cardellino C, Cardellino F, Alemany L, Villata S. Increasing Argument Annotation Reproducibility by Using Inter-annotator Agreement to Improve Guidelines. In: Language Resources and Evaluation. Proc. of the 11th Int. Conf. LREC 2018 (Miyazaki, Japan, 2018). 2018.
  31. Lindahl A, Borin L, Rouces J. Towards Assessing Argumentation Annotation – A First Step. In: Argument Mining, proc. of the 6th Workshop (Florency, Italy, 2019), 2019: 177-186.
  32. Pimenov IS. Analysis of discrepancies in the argumentative markup of scientific articles in Russian [In Russian]. In: NSU Vestnik. Series: Linguistics and Intercultural Communication. 2023; 21(2): 89-104. doi: 10.25205/1818-7935-2023-21-2-89-104.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2024 Sidorova E.A., Akhmadeeva I.R., Zagorulko Y.A., Kononenko I.S., Sery A.S., Chagina P.M., Shestakov V.K.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: серия ФС 77 - 70157 от 16.06.2017.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies