Доверие к данным при пополнении онтологий и графов знаний

Серый Алексей Сергеевич; Alexey S. Sery

Data credibility when populating ontologies and knowledge graphs

Authors: Sery A.S.¹
Affiliations:
1. A.P. Ershov Institute of Informatics Systems of Siberian Branch of RAS
Issue: Vol 13, No 1 (2023)
Pages: 113-124
Section: ONTOLOGY ENGINEERING
URL: https://journals.ssau.ru/ontology/article/view/26982
ID: 26982

Cite item

Full Text

Abstract

The problem of assessing trust in the information extracted from textual sources to populate ontologies or knowledge graphs is considered. For a unit of information or a fact, the minimum knowledge about an instance of the subject area, expressed by a single RDF triplet, is taken. The paper provides a description of a probabilistic trust evaluation model based on Markov random processes. When assessing, the model is built on the basis of available information about sources, taking into account previously extracted data. A method for assessing the credibility of information with parallel weighting of sources is also provided. The proposed approach is in demand when the quality of the data sources is unknown or unavailable. As part of testing the model, sets of numerical data of various sizes were automatically generated, experiments were carried out to weigh the sources and assess trust in the information extracted from them. It was shown that in most cases the weights of the sources calculated on the basis of the proposed model are the greater, the smaller the average deviation of the information they provide from the true one, and the confidence in facts increases with decreasing distance to the true data. Comparison with data aggregation models is made. In most cases, the aggregation based on the trust score showed the smallest average deviation from the true data among the considered models. The obtained results show that the proposed model is effective in comparison with other similar models and can be used in problems of assessing trust in facts represented by real numbers.

Keywords

ontology, knowledge graph, data extraction, information trustworthiness, Markov Process

Full Text

Введение

Современное глобальное информационное пространство невозможно представить и проанализировать усилиями человека, даже если речь идёт об экспертах в конкретных предметных областях (ПрО). Одним из путей решения данной проблемы стало использование методов автоматического анализа данных, которые широко применяются во всех сферах человеческой деятельности, связанной с обработкой информации. В первую очередь это методы обработки неструктурированных источников, например текстов, изображений и веб-страниц, позволяющие извлекать определённую информацию и представлять её в структурированном виде — в базах данных, онтологиях и графах знаний. Последние являются основным, на данный момент, способом интеграции больших структурированных данных [1]. Для извлечения информации применяется множество различных методов и подходов: от конвейерных процессов на основе технологии Apache NiFi [2] до трансформерных нейросетей типа BERT [3]. Полученные графы затем применяются в интеллектуальных информационных системах (ИС) как источники знаний и основа логического вывода [4].

Обработка большого числа источников почти неизбежно приводит к появлению противоречивых знаний, т.е. нескольких альтернативных утверждений относительно одной и той же сущности. Это могут быть, к примеру, разные прогнозы погоды, цены акций, ожидаемое время прибытия авиарейсов, противоречивая информация о местах жительства или работы людей и т.д. Противоречия возникают как вследствие ошибок, так и потому, что информация, предоставленная источником, давно не обновлялась и устарела¹. Таким образом, требуется не просто извлечь знания из источника, но и оценить их надёжность или уровень доверия к ним. В данной работе предлагается метод оценки доверия к информации, извлекаемой из различных источников для пополнения базы знаний (БЗ) ИС, основанной на онтологии.

1. Обзор предшествующих работ

Проблема оценки надёжности знаний, особенно в тех случаях, когда знания, полученные из разных источников, противоречат друг другу, исследуется давно. В работах [5, 6] надёжность источников и извлекаемых данных оценивались по заранее заданным правилам. Информация зачастую предполагалась статичной, т.е. представленной в виде завершённой таблицы соответствия фактов и источников [7, 8], которая затем не изменяется. В работах [9, 10] рассматриваются ситуации, когда информация из источников поступает последовательно, а истинные знания изменяются со временем. Исследования проводились на численных данных, в качестве примеров были выбраны прогнозы среднесуточной температуры, прогнозы капитализаций на фондовых рынках и время прибытия авиарейсов. Проведённый анализ результатов показал эффективность предлагаемых решений.

Более сложной задачей является оценка текстовых данных. Предметом исследования в данном направлении являются социальные сети: с одной стороны как источник большого количества противоречивой информации, с другой — как средство, оказывающее значительное влияние на образ мыслей и мнение людей. В работах [11, 12] исследовались способы и пути распространения слухов внутри социальных сетей. В [11] рассмотрены механизмы распространения слухов, проанализированы их жизненные циклы и зависимость таких показателей, как уровень поддержки и обсуждаемость, от типов пользователей, вовлекаемых в их распространение. Исследование [12] сосредоточено на верификации слухов. В работе [13] собран набор данных и разработана мультимодальная модель машинного обучения для решения задачи обнаружения и верификации слухов, касающихся девяти различных событий. Каждый элемент набора данных был аннотирован одной из трёх меток в зависимости от степени надёжности: Правда (True), Неправда (False) и Не подтверждено (Unverified). Схожая задача оценки высказываний пользователей решалась в [14] при помощи серии известных методов машинного обучения: наивный байесовский классификатор, логистическая регрессия, метод опорных векторов, деревья решений и др.

Сложность задач исследования в области анализа надёжности информации возрастает с ростом объёмов доступной информации и стремительным распространением ложной информации. Методы глубокого обучения применяются как современное и мощное средство. Разработанный в [12, 13] набор данных применялся для анализа новостей в социальной сети Twitter [15]. В [16] использована нейросетевая модель на основе свёрточных и рекуррентных нейронных сетей для распознавания ложной информации.

2. Модель доверия

2.1 Факты в онтологии

Пусть БЗ ИС построена на основе онтологии $O$ некоторой ПрО, где $O = \{C_{O}, D_{O}, D a t_{O}, R e l_{O}\}$ . Конечное непустое множество $C_{O}$ представляет совокупность концептов ПрО, конечные непустые множества $D_{O}$ , $D a t_{O}$ и $R e l_{O}$ — соответственно доменов, атрибутов и отношений. Каждый атрибут из $D a t_{O}$ имеет область значений $d \in D_{O}$ , а элементы множества $R e l_{O} \subseteq C_{O} \times C_{O}$ — это бинарные отношения между концептами из $C_{O}$ . Объединение $D a t_{O} \cup R e l_{O}$ атрибутов и отношений называется множеством свойств онтологии $O .$ . Класс можно определить в виде тройки $(c, D a t_{c}, R e l_{c})$ , где через обозначено имя класса, $D a t_{c} \subseteq D a t_{O},$ $R e l_{c} \subseteq R e l_{O}$ — его свойства. Каждый атрибут $α^{c} \in D a t_{c}$ имеет область значений $d_{α^{c}} \in D_{O}$ , а каждое отношение $ρ^{c} \in R e l_{c}$ связывает класс с некоторым классом $c_{ρ^{c}} \in C_{O}$ . Класс или множество классов $c_{ρ^{c}}$ образуют область значений отношения $ρ^{c}$ .

Пусть $a \in c_{a}$ , если a является экземпляром класса $c_{a} \in C_{O}$ . Экземпляр представляется тройкой вида $a = (c_{a}, D a t_{a}, R e l_{a})$ такой, что $D a t_{a} = \{(α, V_{α_{a}}) | α \in D a t_{c_{a}}, V_{α_{a}} \subseteq d_{α} \in D_{O}\}$ — атрибуты экземпляра a, и $R e l_{a} = (ρ, V_{(} ρ_{a})) | ρ \in R e l_{(} c_{a}))$ — его связи с другими экземплярами. Здесь $V_{ρ_{a}}$ — множество экземпляров, с которыми a связан отношением p.

В данной работе задача пополнения БЗ ИС рассматривается как задача пополнения онтологии, т.е. как добавление, удаление и изменение экземпляров в соответствии с данными, полученными извне. При этом за областью рассмотрения остаётся редактирование ядра онтологии — множества $O$ . В терминах ИС, БЗ которой построена на основе онтологии, единицей информации считается минимальное знание об экземпляре ПрО — значение его атрибута или его связь с другим экземпляром. Можно называть такое знание единичным фактом или просто фактом. Автоматическая обработка текстовых источников позволяет извлекать факты и добавлять их в БЗ ИС. Информация, полученная из разных источников, может оказаться противоречивой, порождая множества конфликтных фактов. Требуется ранжировать эти множества по уровню доверия таким образом, чтобы предоставить пользователям ИС наиболее надёжную информацию.

При оценке доверия к фактам предлагаемая в данной работе модель основывается на доступной информации об источниках, из которых факты были получены. Под источниками здесь понимаются общедоступные электронные ресурсы, из которых извлекаются численные или текстовые данные. Предполагается, что в ИС используются некоторые качественные показатели источников, например рейтинг, если таковые доступны, или создаются собственные оценки, опираясь на всю информацию, доступную на текущий момент. Это означает, что модель доверия учитывает характеристики источников данных, но не включает описание методов их получения. Необходимо только, чтобы данные характеристики принимали значения из множества $ℝ^{+}$ . В любой момент времени множество источников, из которых извлекаются факты для пополнения БЗ ИС, конечно. Пусть это будет множество S, а для любого источника $s \in S$ искомая качественная характеристика — $μ^{s}$ . В дальнейшем индекс s в обозначении $μ^{s}$ будет опускаться в тех случаях, когда не имеет значения, из какого конкретного источника была получена информация.

2.2 Доверие как случайный процесс

В каждый момент времени для факта F, являющегося частью экземпляра $a$ , должна быть определена величина, показывающая насколько надёжным является данный факт по сравнению с другими фактами в ИС, $T r^{F}$ - трастовая метрика. БЗ не является статичной, и с появлением новых источников, содержащих другие факты об $a$ , доверие к может изменяться. История изменений $T r^{F}$ представляет собой последовательность, в которой каждый следующий член зависит только от предыдущего, а также от поступившего в обработку источника $s \in S$ . ИС может считать или не считать факт F достоверным, т.е. имеет два потенциальных состояния: Ненадёжный (Unreliable, U) и Надёжный (Reliable, R). Информация о том, в каком из состояний на данный момент находится F эквивалентна его $T r^{F}$ . Последовательность значений $T r^{F}$ становится эквивалентной последовательности вида $(X_{t}, t = 0,1, \dots)$ дискретных случайных величин, принимающих значения из бинарного множества состояний $\{U, R\}$ . Тогда для последовательности $(X_{t})$ выполняется условие $P (X_{k} = x_{k} | X_{k_{1}} = x_{k_{1}}, X_{k_{2}} = x_{k_{2}}, \dots, X_{k_{r}} = x_{k_{r}}) = P (X_{k} = x_{k} | X_{k_{r}} = x_{k_{r}})$ , для любых $k_{1} < k_{2} < k_{3} < \dots < k_{r} < k$ , т.е. она удовлетворяет определению марковских случайных процессов.

Следующий член случайного процесса вычисляется всякий раз, когда в систему поступает новая информация об F. Пусть T- множество моментов времени, соответствующих членам случайного процесса $X_{t}$ , т.е. $t \in T$ . Значение $T r^{F}$ в момент t оценивается как вероятность того, что факт F является надёжным, т.е. $T r^{F} = P (X_{t}^{F} = R)$ .

Для любого t величина $X_{t}$ распределена как $(π_{U}^{t}, π_{R}^{t})$ , где $π_{x}^{t} = P (X_{t} = x)$ . Вектор распределения $\bar{π} = (π_{U}, π_{R})$ можно назвать вектором распределения доверия (Trust Distribution Vector, TDV). TDV показывает вероятность факта оказаться достоверным или недостоверным. Очевидно, что $π_{U} + π_{R} = 1$ . Распределение $\bar{π} = (\frac{1}{2}, \frac{1}{2})$ и близкие к нему соответствуют состоянию неопределённости, когда судить о достоверности F невозможно.

Согласно теории случайных процессов, вектор ${\bar{π}}^{t + 1} = (π_{U}^{t + 1}, π_{R}^{t + 1})$ получается умножением вектора предыдущего шага ${\bar{π}}^{t}$ на $2 \times 2$ стохастическую матрицу перехода $P (t, t + 1)$ . Элементы $p_{i j} (t, t + 1)$ матрицы $P (t, t + 1)$ — это вероятности перехода из i-го состояния в j-e на шаге (t + 1), при этом $p_{i 1} + p_{i 2} = 1,$ $i = 1, 2$ . Здесь и далее предполагается, что состояния 1 и 2 — это состояния U и R соответственно. В таких обозначениях $π_{1} = π_{U},$ $π_{2} = π_{R}$ .

2.3 Переходная матрица случайного процесса

В рамках модели матрица перехода $P (t, t + 1)$ представляется как функция от $μ$ и вектора ${\bar{π}}^{t}$ .

$P (t, t + 1) = s o f t m a x (π^{⊤} (\begin{matrix} \frac{π_{1}}{μ} & μ π_{2} \end{matrix})) = (\begin{matrix} s o f t m a x (\frac{π_{1}^{2}}{μ}, μ π_{1} π_{2}) \\ s o f t m a x (\frac{π_{1} π_{2}}{μ}, μ π_{2}^{2}) \end{matrix}) =$

$= (\begin{matrix} \frac{1}{1 + e^{π_{1} (μ π_{2} - \frac{π_{1}}{μ})}} & \frac{1}{1 + e^{π_{1} (\frac{π_{1}}{μ} - μ π_{2})}} \\ \frac{1}{1 + e^{π_{2} (μ π_{2} - \frac{π_{1}}{μ})}} & \frac{1}{1 + e^{π_{2} (\frac{π_{1}}{μ} - μ π_{2})}} \end{matrix}) .$

Из формулы (1) следует, что увеличение рейтинга $μ$ источника информации ведёт к росту вероятности перехода в состояние R и наборот — информация из источников с низким рейтингом способствует переходу в состояние U. Функция $s o f t m a x (\bar{x}) =$ ${(\frac{e^{x_{i}}}{\sum_{j = 1}^{n} e^{x_{j}}})}_{i}$ $\bar{x} = (x_{1}, x_{2}, \dots, x_{n})$ необходима для представления категориального распределения по строкам матрицы P.

Матрица P обладает несколькими полезными свойствами как функция $P (μ, {\bar{π}}^{t})$ . На основании формулы (1) можно заключить, что с уменьшением рейтинга источника доверие к получаемой из него информации также уменьшается вплоть до нуля. Заведомо ложный источник с $μ = 0$ приводит любой TDV, кроме (0, 1) , к вектору (1, 0) за один шаг. Вектор(0, 1) , т.е. такой, где $π_{1} = 0$ , приводит к $P = (\begin{matrix} \frac{1}{2} & \frac{1}{2} \\ \frac{1}{1 + e^{μ}} & \frac{1}{1 + e^{- μ}} \end{matrix})$ $\overset{μ \to 0}{\to} (\begin{matrix} \frac{1}{2} & \frac{1}{2} \\ \frac{1}{2} & \frac{1}{2} \end{matrix})$ . Таким образом, заведомо ложный источник переводит идеальный TDV(0, 1) в $(\frac{1}{2}, \frac{1}{2})$ .

Аналогично, в случае заведомо надёжного источника, при $μ \to \infty$ , матрица P переводит любой TDV, кроме (1, 0), в идеальный вектор (0, 1). В случае $π_{2} = 0$ $P \overset{μ \to \infty}{\to}$ $(\begin{matrix} \frac{1}{2} & \frac{1}{2} \\ \frac{1}{2} & \frac{1}{2} \end{matrix})$ . Это означает, что заведомо надёжный источник переводит распределение (1, 0) в $(\frac{1}{2}, \frac{1}{2})$ .

Третьим полезным следствием формулы (1) является тот факт, что для любого распределения $\bar{π}$ ${(\bar{π} P)}_{2} (μ_{1}) < {(\bar{π} P)}_{2} (μ_{2})$ при $μ_{1} < μ_{2}$ , т.е. доверие $T r^{F}$ монотонно как функция от $μ$ .

3. Экспериментальные исследования

3.1 Параметры и обозначения

ИС, реализующая модель доверия для оценки поступающих данных, полагается на качественные показатели источников, из которых они получены. Модель не содержит описания методов оценки источников. При доступности достаточного количества альтернативных фактов существуют методы, позволяющие параллельно оцениванию доверия к информации, «взвесить» её источники. В данной работе предлагается метод параллельного оценивания, основанный на [9, 10]. В этих работах описанные модели использовались для численных данных, таких как прогнозы среднесуточной температуры, количество пешеходов на улице, капитализация компаний на фондовых рынках и т.п. Основная решаемая с использованием моделей задача состоит в вычислении по имеющейся альтернативной информации из источников единственного агрегированного значения, наиболее близкого к истинному. Предлагаемая в данной работе модель предназначена для ранжирования всех полученных альтернативных значений по степени доверия к ним.

Входными параметрами оригинальных моделей [9, 10] являются множество моментов времени T, источников S и множество O объектов, информация о которых извлекается из источников. Источник $s \in S$ имеет вес $w_{s} \in ℝ^{+}$ , и в момент времени t из него извлекается информация об $c_{t}^{s} \geq 0$ объектах. Решение задачи заключается в минимизации потерь вида (2).

$L_{t} = θ_{s = 1}^{S} w_{s}_{o = 1}^{c_{t}^{s}} {(v_{o, t}^{s} - v_{o, t}^{*})}^{2} -_{s = 1}^{S} c_{t}^{s} l o g (w_{s}) .$ (2)

Здесь $v_{o, t}^{s}$ и $v_{o, t}^{*}$ — это, соответственно, значение, полученное для объекта o из источника s в момент времени t и агрегированное значение, вычисленное для o в момент t. Для минимизации потерь необходимо, с одной стороны, уменьшить вес источников, дающих информацию, сильно отличающуюся от агрегированного значения, с другой — избегать приближения весов к нулю. Значение параметра $θ$ задаётся заранее.

В данном случае объектами выступают факты, т.е. единицы информации об экземплярах концептов онтологии ПрО. Количество источников заранее неизвестно, однако в любой момент времени оно конечно, поэтому, без ограничения общности, можно считать множество источников аналогичным таковому в оригинальной модели в ситуации, когда источник s может не содержать информации о конкретном объекте в момент времени t. Это означает, что в момент t учитываются только те источники, из которых удалось извлечь требуемую информацию. Множеством, аналогичным множеству объектов O, будет $F = \{f | f = (a, α), a \in c_{a} \in C_{O}, α \in D a t_{c_{a}} \cup R e l_{c_{a}}\}$ — множество пар экземпляр/свойство, которое можно назвать множеством типов извлекаемых фактов. В этом случае $v_{f, t}^{s}$ дополняет пару $ƒ$ до законченного триплета, т.е. факта. Время T при этом соответствует определению, данному в разделе 2.2. Полный список обозначений приведён в таблице 1.

Таблица 1 – Принятые обозначения

Обозначение	Определение
S	Количество источников, из которых извлекается информация. $S < + \infty$ .
$w_{s}$	Вес источника s.
$F$	Множество типов извлекаемых фактов.
T	Множество моментов времени.
$v_{f, t}^{s}$	Факт типа , полученный из источника s в момент t.
$v_{f, t}^{*}$	Агрегированное значение f в момент t.
$c_{t}^{s}$	Количество фактов, полученных из источника s в момент t.
D	База данных ИС.
$D_{f, t}$	Количество альтернативных значений f в базе данных в момент t.

$v_{f}^{j}$	j-е альтернативное значение f в D.
$e_{f, t}^{s}$	Ошибка источника s в момент t на факте типа f.

В работе [9] рассмотрены ситуации, когда истинное знание постоянно меняется, то есть истинное значение факта зависит от . Это соответствует задачам оценки прогнозов погоды или количества товаров на складе. Существуют задачи, где истинное знание не изменяется длительное время, но могут появляться источники, распространяющие неточную информацию и порождающие новые альтернативные значения. В качестве примера можно привести количество сотрудников в организации, данные статистических исследований, место работы или жительства персоны и т.п. В подобных ситуациях альтернативных значений сравнительно немного, они распространяются разными источниками и поэтому могут быть извлечены ИС многократно. Для таких случаев предлагается использовать функцию потерь (3), которая, наряду с новой информацией, учитывает и ту, что уже содержится в БЗ ИС.

$L_{t} = θ (_{s = 1}^{S} w_{s}_{f = 1}^{c_{t}^{s}} {(v_{f, t}^{s} - v_{f, t}^{*})}^{2} + λ \underset{f \in F}{}_{j = 1}^{D_{f, t}} T r (v_{f}^{j}) {(v_{f}^{j} - v_{f, t}^{*})}^{2}) -_{s = 1}^{S} c_{t}^{s} l o g (w_{s}) .$ (3)

В формуле (3) гиперпараметры $θ$ и $|λ|$ также должны быть заданы предварительно. Агрегированные значения в рамках построенной модели доверия носят вспомогательный характер и необходимы только для взвешивания источников и вычисления рейтинговых характеристик $μ_{f, t}^{s} = \frac{1}{e_{f, t}^{s}}$ , вычисляемых как величина, обратная ошибке $v_{f, t}^{s}$ по отношению к $v_{f, t}^{*}$ . Величина $μ_{f, t}^{s}$ используется при оценке доверия к $v_{f, t}^{s}$ . В зависимости от вида функции потерь агрегированные значения $v_{f, t}^{*}$ вычисляются по одной из формул (4):

$v_{f, t}^{*} =$ $\frac{\sum_{s = 1}^{S} w_{s} \cdot v_{f, t}^{s}}{\sum_{s = 1}^{S} w_{s}};$ $v_{f, t}^{*} =$ $\frac{\sum_{s = 1}^{S} w_{s} \cdot v_{f, t}^{s}}{\sum_{s = 1}^{S} w_{s} \cdot v_{f, t}^{s}}$ $\frac{+ λ \sum_{j = 1}^{D_{f, t}} T r (v_{f}^{j}) v_{f}^{j}}{+ λ \sum_{j = 1}^{D_{f, t}} T r (v_{f}^{j})}$ . (4)

Вид формулы для $v_{f, t}^{*}$ не влияет на способ взвешивания источников. Их веса вычисляются по формуле (5), применяемой в работе [9].

$w_{s} = \frac{2 α - 2 + \sum_{t = 1}^{T} c_{t}^{s}}{2 β + θ \sum_{t = 1}^{T} \sum_{f = 1}^{c_{t}^{s}} {(e_{f, t}^{s})}^{2}} .$ (5)

В [9] была доказана сходимость процесса взвешивания, т.е. веса источников при такой оценке сходятся к определённым значениям. Начальные веса определяются случайно и подчиняются гамма-распределению с параметрами $α$ и $β$ .

3.2 Результаты на наборах численных данных

Оригинальные модели предназначены для работы с численными данными, соответственно, все $v_{f, t}^{s}$ — это целые или вещественные числа. Предлагаемая модель оценки доверия, обозначенная Markov Trust Evaluation model (MarkTE), сравнивалась с моделью агрегации [9] DYNAmic Truth Discovery (DynaTD) на случайно сгенерированных массивах данных разных размеров, представленных в таблице 2.

Таблица 2 – Искусственные наборы данных

	S	T	$F$
Small	10	15	50
Medium	65	45	250
Large	150	100	500

Приведены результаты решения двух задач, обозначенных как NF и FX. Задача NF (Not Fixed truth) соответствует ситуации, когда из каждого источника в каждый момент времени извлекается значение $v_{f, t}^{s}$ , а истинные значения зависят от t. Это означает, что для каждого $f \in F$ и каждого t существует отдельное истинное значение $v_{f, t}^{a}$ . Условия задачи NF соответствуют таковым в экспериментах, приведённых в работах [9, 10]. Так как истинные значения постоянно меняются, то в функции (3) не имеет смысла учитывать информацию, полученную ранее, поэтому в задаче NF в формуле (4) принята $λ = 0$ . Задача FX (FiXed truth) соответствует ситуации, когда значение вида $v_{f, t}^{s}$ может быть извлечено из источника s не гарантированно, но с некоторой вероятностью, распределённой как $U_{(0.4,0.6)}$ , а истинные значения $v_{f}^{a}$ фиксированы и не зависят от времени. При этом количество альтернатив для $ƒ$ также фиксировано, а одни и те же значения могут встречаться в разных источниках в разное время. Данная ситуация схожа с теми, на которые ориентирована модель MarkTE, и при оценке учитывалась информация из БЗ с $λ > 0$ . Путём экспериментов в условиях задач NF и FX, предложенная модель доверия была протестирована в разных условиях.

Для каждой задачи были сгенерированы отдельные наборы данных. Каждый источник $s \in S$ получил истинный вес $w_{s}^{a}$ , и для каждого $f \in F$ были определены истинные значения. Вероятность того, что источник предоставил информацию, не соответствующую действительности, обратно пропорциональна его весу. Как показано на рисунке 1, максимальная, средняя и медианная ошибки источников тем больше, чем меньше назначенный им истинный вес. Ошибки вычислялись как $|v_{f, t}^{s} - v_{f, t}^{a}|$ в задаче NF и $|v_{f, t}^{s} - v_{f}^{a}|$ в задаче FX.

Рисунок 1 – Ошибки источников в зависимости от их истинного веса

Figure 1 – Source errors depending on their true weight

Характеристики $μ_{f, t}^{s}$ для переходных матриц (1) вычислялись как $μ_{f, t}^{s} = \frac{1}{e_{f, t}^{s}}$ , где $e_{f, t}^{s} = |v_{f, t}^{s} - v_{f, t}^{*}|$ . Зная вектор распределения доверия ${\bar{π}}^{t - 1}$ значения $v_{f, t}^{s}$ , распределение на шаге t вычислялось как ${\bar{π}}^{t} = {\bar{π}}^{t - 1} \cdot P (μ_{f, t}^{s})$ . Веса источников последовательно пересчитывались по формуле (5). Зависимость весов, вычисленных на основе модели MarkTE, от ошибок источника на истинных значениях показана на рисунке 2.

Рисунок 2 – Ошибки источников в зависимости от их вычисляемого веса

Figure 2 – Errors of sources depending on their calculated weight

Сходство графиков на рисунках 1 и 2 говорит о том, что веса источников, предоставивших информацию, близкую к истинной, сходятся к величинам бо́льшим, нежели те, к которым сходятся веса источников, содержащих информацию, далекую от истины. Таким образом, источники были взвешены корректно, и более надёжные получили бо́льшие веса по сравнению с менее надёжными.

Модель оценки доверия служит для ранжирования полученных знаний, тогда как модель DynaTD выполняет агрегацию. Для сравнения полученных результатов была введена операция агрегации (6) для всех , таких что существует, выполняемая на основе оценок доверия полученных знаний, а не их источников, как в (5).

$v_{f, t}^{m} =$ $\frac{\sum_{s = 1}^{S} v_{f, t}^{s} T r (v_{f, t}^{s})}{\sum_{s = 1}^{S} T r (v_{f, t}^{s})}$ (6)

В качестве показателей эффективности были использованы результаты сравнения полученных агрегированных значений с истинными: средняя абсолютная ошибка (Mean Absolute Error, MAE) и средняя квадратичная ошибка (Root Mean Squared Error, RMSE

$\begin{array}{r} V & = \{(t, s, f) \in T \times S \times F | \exists v_{f, t}^{s}\} \\ M A E & = \frac{\sum_{(t, s, f) \in V} |v_{f, t}^{s} - v_{f, t}^{a}|}{|V|} \\ R M S E & = \sqrt{\frac{\sum_{(t, s, f) \in V} {(v_{f, t}^{s} - v_{f, t}^{a})}^{2}}{|V|}} . \end{array}$

Базисный уровень был реализован двумя дополнительными моделями Mean и Median. Агрегированные значения $v_{f, t}^{*}$ в модели Mean вычисляются как среднее по всем $v_{f, t}^{s}$ , в модели Median агрегацию выполняет функция медианы.

Результаты оценки MAE и RMSE для всех моделей и наборов данных на каждой задаче приведены в таблице 3. Видно, что агрегированные значения, полученные по формуле (6) на основе оценок доверия в соответствии с моделью MarkTE, в большинстве случаев оказались ближе к истинным. Отсюда можно заключить, что эффективность модели MarkTE находится на конкурентном уровне по сравнению с моделью DynaTD и другими, сравнения с которыми были проведены в [9]. Полученные оценки доверия оказались более точными весовыми коэффициентами при агрегации.

Таблица 3 – Сравнение результатов моделей MarkTE, DynaTD, Mean и Median

Задача		Мера	MarkTE	DynaTD	Mean	Median
Small	NF	MAE	0,4367	0,5448	2,8096	0,5601
	NF	RMSE	0,5765	0,9925	3,5978	0,7068
	FX	MAE	0,3841	0,5306	0,5449	0,6093
	FX	RMSE	0,542	0,673	0,6888	0,8243
Medium	NF	MAE	0,2093	0,2087	1,2755	0,2507
	NF	RMSE	0,2674	0,3603	1,5951	0,3155
	FX	MAE	0,3297	0,6205	0,6377	0,8149
	FX	RMSE	0,4289	0,7759	0,7969	1,0263
Large	NF	MAE	0,1389	0,132	1,9844	0,1688
	NF	RMSE	0,1814	0,2727	2,4887	0,2117
	FX	MAE	0,2791	0,582	0,6018	0,7967
	FX	RMSE	0,3599	0,7325	0,757	1,0124

Рисунок 3 – Оценка доверия к фактам в зависимости от абсолютной ошибки

Figure 3 – Assessment of confidence in facts depending on the absolute error

Каждая единица информации, выраженная значением $v_{f, t}^{s},$ получила оценку доверия $T r (v_{f, t}^{s})$ . На рисунке 3 показана зависимость $T r (v_{f, t}^{s})$ от абсолютной ошибки $|v_{f, t}^{s} - v_{f, t}^{a}|$ на примере задачи Medium+NF.

Набор данных Medium (см. таблицу 2) содержал 65 $\cdot 45 \cdot 250 = 731250$ значений. В целях наглядности на рисунке 3 представлены результаты для случайной выборки из 100 значений. На графике видна очевидная тенденция уменьшения доверия с ростом ошибки, из чего можно заключить, что предлагаемая модель MarkTE корректно оценивает доверие к поступающим в ИС данным, назначая наибольшие показатели доверия значениям с минимальной ошибкой.

Заключение

Предлагаемая модель оценки доверия к информации, извлекаемой из внешних источников для пополнения БЗ ИС, построенной на основе онтологии некоторой ПрО, способна демонстрировать эффективные показатели по сравнению с другими моделями на задачах оценки численных данных. В качестве данных могут выступать показатели, например, стоимость акций и капитализация компаний, информация о наличии товаров на складе и др. В общем случае модель MarkTE способна оценить доверие к текстовым данным или данным, представленным в виде RDF-триплетов, что соответствует их представлению в онтологиях.

¹ В современном информационном пространстве особое значение приобретает проблема выявления заведомо ложной или умышленно искажённой информации. Прим. ред.

About the authors

Alexey S. Sery

A.P. Ershov Institute of Informatics Systems of Siberian Branch of RAS

Author for correspondence.
Email: alexey.seryj@iis.nsk.su
ORCID iD: 0000-0001-8275-4700
Scopus Author ID: 56403204900
ResearcherId: K-1557-2018

Junior Researcher

Russian Federation, Novosibirsk

References

Baclawski K, Bennett M, Berg-Cross G, Schneider T, Sharma R, Singer J, Sriram, R.D. Ontology summit 2020 communiqué: Knowledge graphs. Applied Ontology. 2021; 16(2): 229–247. doi: 10.18287/2223-9537-2020-10-4-540-555.
Simsek U, Umbrich J, Fensel D. Towards a Knowledge Graph Lifecycle: A pipeline for the population of a commercial Knowledge Graph. In: A. Paschke, C. Neudecker, G. Rehm, J.A. Qundus and L. Pintscher (eds): Proceedings of the Conference on Digital Curation Technologies Qurator-2020 (Berlin, Germany, 2020, January 20 21). CEUR Workshop Proceedings, vol. 2535, CEUR-WS.org, https://ceur-ws.org/Vol-2535/paper_10.pdf.
Fernàndez-Cañellas D. et al. Enhancing Online Knowledge Graph Population with Semantic Knowledge. In: The Semantic Web ISWC 2020. Lecture Notes in Computer Science, vol 12506. Springer, Cham. 2020. 183–200. doi: 10.1007/978-3-030-62419-4_11.
Cimmino A, García-Castro R. Helio: a framework for implementing the life cycle of knowledge graphs. Semantic Web. Preprint 2022. 1–27. doi: 10.3233/SW-233224.
Galland A, Abiteboul S, Marian A, Senellart P. Corroborating information from disagreeing views. In: Proceedings of the third ACM international conference on Web search and data mining WSDM-2010. (New York, USA, 2010, February 4–6). 2010. 131–140. doi: 10.1145/1718487.1718504.
Li X, Dong XL, Lyons KB, Meng W, Srivastava D. Truth finding on the deep web: Is the problem solved? In: Proceedings of the VLDB Endowment. 2012; 6(2): 97–108. doi: 10.14778/2535568.2448943.
Pochampally R. et al. Fusing data with correlations. In: Proceedings of the 2014 ACM SIGMOD international conference on Management of data SIGMOD-2014 (Snowbird, Utah, USA, 2014, June 22–27). 2014. 433–444. doi: 10.1145/2588555.2593674.
Dong XL, Gabrilovich E, Murphy K, Dang V, Horn W, Lugaresi C, Sun S, Zhang W. Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources. In: Proceedings of the VLDB Endowment. 2015; 8: 938–949. doi: 10.14778/2777598.2777603.
Li Y. et al. On the discovery of evolving truth. In: Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining KDD-2015 (Sydney, NSW, Australia, 2015, August 10–13). 2015. 675–684. doi: 10.1145/2783258.2783277.
Yao L. et al. Online truth discovery on time series data. In: Proceedings of the 2018 SIAM international Conference on Data Mining SDM-2018 (San Diego, USA, 2018, October 6–13). 2018. Society for Industrial and Applied Mathematics. 162–170. doi: 10.1137/1.9781611975321.19.
Zubiaga A, Liakata M, Procter R, Wong Sak Hoi G, Tolmie P. Analysing how people orient to and spread rumours in social media by looking at conversational threads. PLoS ONE 2016. 11(3): e0150989. doi: 10.1371/journal.pone.0150989.
Kochkina E, Liakata M, Zubiaga A. All-in-one: Multi-task learning for rumour verification. In: Proceedings of 27th International Conference on Computational Linguistics COLING-2018 (Santa Fe, New-Mexico, USA, 2018, August 20–26). Association for Computational Linguistics (ACL). 2018. 3402–3413. doi: 10.48550/arXiv.1806.03713.
PHEME dataset for Rumour Detection and Veracity Classification. https://www.kaggle.com/datasets/usharengaraju/pheme-dataset.
Chen X, Yuan Y, Lu L, Yang J. A multidimensional trust evaluation framework for online social networks based on machine learning. IEEE Access. 2019; 7: 175499–175513. doi: 10.1109/ACCESS.2019.2957779.
Vyas P, El-Gayar O. Credibility analysis of news on twitter using LSTM: An exploratory study. In: Proceedings of 26th Americas Conference on Information Systems AMCIS 2020 (Virtual conference, 2020, August 10–14). Association for Information Systems. https://scholar.dsu.edu/cgi/viewcontent.cgi?article=1150&context=bispapers.
Hirlekar VV, Kumar A. Tweet Credibility Detection for COVID-19 Tweets using Text and User Content Features. International Journal of Advanced Computer Science and Applications, 2022; 13(4): 430–439. doi: 10.14569/IJACSA.2022.0130451.

Supplementary files

Supplementary Files

Action

1. JATS XML

Download

2. Figure 1 – Source errors depending on their true weight

Download (252KB)

Indexing metadata

3. Figure 2 – Errors of sources depending on their calculated weight

Download (246KB)

Indexing metadata

4. Figure 3 – Assessment of confidence in facts depending on the absolute error

Download (128KB)

Indexing metadata

Statistics

Views

Abstract: 548

PDF (Russian): 81

Article Metrics

PDF Views: 81

monthly | yearly

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register

Data credibility when populating ontologies and knowledge graphs

Full Text

Abstract

Keywords

Full Text

Введение

1. Обзор предшествующих работ

2. Модель доверия

2.1 Факты в онтологии

2.2 Доверие как случайный процесс

2.3 Переходная матрица случайного процесса

3. Экспериментальные исследования

3.1 Параметры и обозначения

3.2 Результаты на наборах численных данных

Заключение

About the authors

Alexey S. Sery

References

Supplementary files

Statistics

Views

Article Metrics

This website uses cookies