Data credibility when populating ontologies and knowledge graphs
- Authors: Sery A.S.1
-
Affiliations:
- A.P. Ershov Institute of Informatics Systems of Siberian Branch of RAS
- Issue: Vol 13, No 1 (2023)
- Pages: 113-124
- Section: ONTOLOGY ENGINEERING
- URL: https://journals.ssau.ru/ontology/article/view/26982
- ID: 26982
Cite item
Full Text
Abstract
The problem of assessing trust in the information extracted from textual sources to populate ontologies or knowledge graphs is considered. For a unit of information or a fact, the minimum knowledge about an instance of the subject area, expressed by a single RDF triplet, is taken. The paper provides a description of a probabilistic trust evaluation model based on Markov random processes. When assessing, the model is built on the basis of available information about sources, taking into account previously extracted data. A method for assessing the credibility of information with parallel weighting of sources is also provided. The proposed approach is in demand when the quality of the data sources is unknown or unavailable. As part of testing the model, sets of numerical data of various sizes were automatically generated, experiments were carried out to weigh the sources and assess trust in the information extracted from them. It was shown that in most cases the weights of the sources calculated on the basis of the proposed model are the greater, the smaller the average deviation of the information they provide from the true one, and the confidence in facts increases with decreasing distance to the true data. Comparison with data aggregation models is made. In most cases, the aggregation based on the trust score showed the smallest average deviation from the true data among the considered models. The obtained results show that the proposed model is effective in comparison with other similar models and can be used in problems of assessing trust in facts represented by real numbers.
Full Text
Введение
Современное глобальное информационное пространство невозможно представить и проанализировать усилиями человека, даже если речь идёт об экспертах в конкретных предметных областях (ПрО). Одним из путей решения данной проблемы стало использование методов автоматического анализа данных, которые широко применяются во всех сферах человеческой деятельности, связанной с обработкой информации. В первую очередь это методы обработки неструктурированных источников, например текстов, изображений и веб-страниц, позволяющие извлекать определённую информацию и представлять её в структурированном виде — в базах данных, онтологиях и графах знаний. Последние являются основным, на данный момент, способом интеграции больших структурированных данных [1]. Для извлечения информации применяется множество различных методов и подходов: от конвейерных процессов на основе технологии Apache NiFi [2] до трансформерных нейросетей типа BERT [3]. Полученные графы затем применяются в интеллектуальных информационных системах (ИС) как источники знаний и основа логического вывода [4].
Обработка большого числа источников почти неизбежно приводит к появлению противоречивых знаний, т.е. нескольких альтернативных утверждений относительно одной и той же сущности. Это могут быть, к примеру, разные прогнозы погоды, цены акций, ожидаемое время прибытия авиарейсов, противоречивая информация о местах жительства или работы людей и т.д. Противоречия возникают как вследствие ошибок, так и потому, что информация, предоставленная источником, давно не обновлялась и устарела1. Таким образом, требуется не просто извлечь знания из источника, но и оценить их надёжность или уровень доверия к ним. В данной работе предлагается метод оценки доверия к информации, извлекаемой из различных источников для пополнения базы знаний (БЗ) ИС, основанной на онтологии.
1. Обзор предшествующих работ
Проблема оценки надёжности знаний, особенно в тех случаях, когда знания, полученные из разных источников, противоречат друг другу, исследуется давно. В работах [5, 6] надёжность источников и извлекаемых данных оценивались по заранее заданным правилам. Информация зачастую предполагалась статичной, т.е. представленной в виде завершённой таблицы соответствия фактов и источников [7, 8], которая затем не изменяется. В работах [9, 10] рассматриваются ситуации, когда информация из источников поступает последовательно, а истинные знания изменяются со временем. Исследования проводились на численных данных, в качестве примеров были выбраны прогнозы среднесуточной температуры, прогнозы капитализаций на фондовых рынках и время прибытия авиарейсов. Проведённый анализ результатов показал эффективность предлагаемых решений.
Более сложной задачей является оценка текстовых данных. Предметом исследования в данном направлении являются социальные сети: с одной стороны как источник большого количества противоречивой информации, с другой — как средство, оказывающее значительное влияние на образ мыслей и мнение людей. В работах [11, 12] исследовались способы и пути распространения слухов внутри социальных сетей. В [11] рассмотрены механизмы распространения слухов, проанализированы их жизненные циклы и зависимость таких показателей, как уровень поддержки и обсуждаемость, от типов пользователей, вовлекаемых в их распространение. Исследование [12] сосредоточено на верификации слухов. В работе [13] собран набор данных и разработана мультимодальная модель машинного обучения для решения задачи обнаружения и верификации слухов, касающихся девяти различных событий. Каждый элемент набора данных был аннотирован одной из трёх меток в зависимости от степени надёжности: Правда (True), Неправда (False) и Не подтверждено (Unverified). Схожая задача оценки высказываний пользователей решалась в [14] при помощи серии известных методов машинного обучения: наивный байесовский классификатор, логистическая регрессия, метод опорных векторов, деревья решений и др.
Сложность задач исследования в области анализа надёжности информации возрастает с ростом объёмов доступной информации и стремительным распространением ложной информации. Методы глубокого обучения применяются как современное и мощное средство. Разработанный в [12, 13] набор данных применялся для анализа новостей в социальной сети Twitter [15]. В [16] использована нейросетевая модель на основе свёрточных и рекуррентных нейронных сетей для распознавания ложной информации.
2. Модель доверия
2.1 Факты в онтологии
Пусть БЗ ИС построена на основе онтологии
Пусть
В данной работе задача пополнения БЗ ИС рассматривается как задача пополнения онтологии, т.е. как добавление, удаление и изменение экземпляров в соответствии с данными, полученными извне. При этом за областью рассмотрения остаётся редактирование ядра онтологии — множества
При оценке доверия к фактам предлагаемая в данной работе модель основывается на доступной информации об источниках, из которых факты были получены. Под источниками здесь понимаются общедоступные электронные ресурсы, из которых извлекаются численные или текстовые данные. Предполагается, что в ИС используются некоторые качественные показатели источников, например рейтинг, если таковые доступны, или создаются собственные оценки, опираясь на всю информацию, доступную на текущий момент. Это означает, что модель доверия учитывает характеристики источников данных, но не включает описание методов их получения. Необходимо только, чтобы данные характеристики принимали значения из множества
2.2 Доверие как случайный процесс
В каждый момент времени для факта F, являющегося частью экземпляра
Следующий член случайного процесса вычисляется всякий раз, когда в систему поступает новая информация об F. Пусть T- множество моментов времени, соответствующих членам случайного процесса
Для любого t величина
Согласно теории случайных процессов, вектор
2.3 Переходная матрица случайного процесса
В рамках модели матрица перехода
Из формулы (1) следует, что увеличение рейтинга
Матрица P обладает несколькими полезными свойствами как функция
Аналогично, в случае заведомо надёжного источника, при
Третьим полезным следствием формулы (1) является тот факт, что для любого распределения
3. Экспериментальные исследования
3.1 Параметры и обозначения
ИС, реализующая модель доверия для оценки поступающих данных, полагается на качественные показатели источников, из которых они получены. Модель не содержит описания методов оценки источников. При доступности достаточного количества альтернативных фактов существуют методы, позволяющие параллельно оцениванию доверия к информации, «взвесить» её источники. В данной работе предлагается метод параллельного оценивания, основанный на [9, 10]. В этих работах описанные модели использовались для численных данных, таких как прогнозы среднесуточной температуры, количество пешеходов на улице, капитализация компаний на фондовых рынках и т.п. Основная решаемая с использованием моделей задача состоит в вычислении по имеющейся альтернативной информации из источников единственного агрегированного значения, наиболее близкого к истинному. Предлагаемая в данной работе модель предназначена для ранжирования всех полученных альтернативных значений по степени доверия к ним.
Входными параметрами оригинальных моделей [9, 10] являются множество моментов времени T, источников S и множество O объектов, информация о которых извлекается из источников. Источник
Здесь
В данном случае объектами выступают факты, т.е. единицы информации об экземплярах концептов онтологии ПрО. Количество источников заранее неизвестно, однако в любой момент времени оно конечно, поэтому, без ограничения общности, можно считать множество источников аналогичным таковому в оригинальной модели в ситуации, когда источник s может не содержать информации о конкретном объекте в момент времени t. Это означает, что в момент t учитываются только те источники, из которых удалось извлечь требуемую информацию. Множеством, аналогичным множеству объектов O, будет
Таблица 1 – Принятые обозначения
Обозначение | Определение |
S | Количество источников, из которых извлекается информация. |
Вес источника s. | |
Множество типов извлекаемых фактов. | |
T | Множество моментов времени. |
Факт типа , полученный из источника s в момент t. | |
Агрегированное значение f в момент t. | |
Количество фактов, полученных из источника s в момент t. | |
D | База данных ИС. |
Количество альтернативных значений f в базе данных в момент t. |
j-е альтернативное значение f в D. | |
Ошибка источника s в момент t на факте типа f. |
В работе [9] рассмотрены ситуации, когда истинное знание постоянно меняется, то есть истинное значение факта зависит от . Это соответствует задачам оценки прогнозов погоды или количества товаров на складе. Существуют задачи, где истинное знание не изменяется длительное время, но могут появляться источники, распространяющие неточную информацию и порождающие новые альтернативные значения. В качестве примера можно привести количество сотрудников в организации, данные статистических исследований, место работы или жительства персоны и т.п. В подобных ситуациях альтернативных значений сравнительно немного, они распространяются разными источниками и поэтому могут быть извлечены ИС многократно. Для таких случаев предлагается использовать функцию потерь (3), которая, наряду с новой информацией, учитывает и ту, что уже содержится в БЗ ИС.
В формуле (3) гиперпараметры
Вид формулы для
В [9] была доказана сходимость процесса взвешивания, т.е. веса источников при такой оценке сходятся к определённым значениям. Начальные веса определяются случайно и подчиняются гамма-распределению с параметрами
3.2 Результаты на наборах численных данных
Оригинальные модели предназначены для работы с численными данными, соответственно, все
Таблица 2 – Искусственные наборы данных
| S | T | |
Small | 10 | 15 | 50 |
Medium | 65 | 45 | 250 |
Large | 150 | 100 | 500 |
Приведены результаты решения двух задач, обозначенных как NF и FX. Задача NF (Not Fixed truth) соответствует ситуации, когда из каждого источника в каждый момент времени извлекается значение
Для каждой задачи были сгенерированы отдельные наборы данных. Каждый источник
Рисунок 1 – Ошибки источников в зависимости от их истинного веса
Figure 1 – Source errors depending on their true weight
Характеристики
Рисунок 2 – Ошибки источников в зависимости от их вычисляемого веса
Figure 2 – Errors of sources depending on their calculated weight
Сходство графиков на рисунках 1 и 2 говорит о том, что веса источников, предоставивших информацию, близкую к истинной, сходятся к величинам бо́льшим, нежели те, к которым сходятся веса источников, содержащих информацию, далекую от истины. Таким образом, источники были взвешены корректно, и более надёжные получили бо́льшие веса по сравнению с менее надёжными.
Модель оценки доверия служит для ранжирования полученных знаний, тогда как модель DynaTD выполняет агрегацию. Для сравнения полученных результатов была введена операция агрегации (6) для всех , таких что существует, выполняемая на основе оценок доверия полученных знаний, а не их источников, как в (5).
В качестве показателей эффективности были использованы результаты сравнения полученных агрегированных значений с истинными: средняя абсолютная ошибка (Mean Absolute Error, MAE) и средняя квадратичная ошибка (Root Mean Squared Error, RMSE
Базисный уровень был реализован двумя дополнительными моделями Mean и Median. Агрегированные значения
Результаты оценки MAE и RMSE для всех моделей и наборов данных на каждой задаче приведены в таблице 3. Видно, что агрегированные значения, полученные по формуле (6) на основе оценок доверия в соответствии с моделью MarkTE, в большинстве случаев оказались ближе к истинным. Отсюда можно заключить, что эффективность модели MarkTE находится на конкурентном уровне по сравнению с моделью DynaTD и другими, сравнения с которыми были проведены в [9]. Полученные оценки доверия оказались более точными весовыми коэффициентами при агрегации.
Таблица 3 – Сравнение результатов моделей MarkTE, DynaTD, Mean и Median
Задача | Мера | MarkTE | DynaTD | Mean | Median | |
Small | NF | MAE | 0,4367 | 0,5448 | 2,8096 | 0,5601 |
RMSE | 0,5765 | 0,9925 | 3,5978 | 0,7068 | ||
FX | MAE | 0,3841 | 0,5306 | 0,5449 | 0,6093 | |
RMSE | 0,542 | 0,673 | 0,6888 | 0,8243 | ||
Medium | NF | MAE | 0,2093 | 0,2087 | 1,2755 | 0,2507 |
RMSE | 0,2674 | 0,3603 | 1,5951 | 0,3155 | ||
FX | MAE | 0,3297 | 0,6205 | 0,6377 | 0,8149 | |
RMSE | 0,4289 | 0,7759 | 0,7969 | 1,0263 | ||
Large | NF | MAE | 0,1389 | 0,132 | 1,9844 | 0,1688 |
RMSE | 0,1814 | 0,2727 | 2,4887 | 0,2117 | ||
FX | MAE | 0,2791 | 0,582 | 0,6018 | 0,7967 | |
RMSE | 0,3599 | 0,7325 | 0,757 | 1,0124 |
Каждая единица информации, выраженная значением
Набор данных Medium (см. таблицу 2) содержал 65
Заключение
Предлагаемая модель оценки доверия к информации, извлекаемой из внешних источников для пополнения БЗ ИС, построенной на основе онтологии некоторой ПрО, способна демонстрировать эффективные показатели по сравнению с другими моделями на задачах оценки численных данных. В качестве данных могут выступать показатели, например, стоимость акций и капитализация компаний, информация о наличии товаров на складе и др. В общем случае модель MarkTE способна оценить доверие к текстовым данным или данным, представленным в виде RDF-триплетов, что соответствует их представлению в онтологиях.
1 В современном информационном пространстве особое значение приобретает проблема выявления заведомо ложной или умышленно искажённой информации. Прим. ред.
About the authors
Alexey S. Sery
A.P. Ershov Institute of Informatics Systems of Siberian Branch of RAS
Author for correspondence.
Email: alexey.seryj@iis.nsk.su
ORCID iD: 0000-0001-8275-4700
Scopus Author ID: 56403204900
ResearcherId: K-1557-2018
Junior Researcher
Russian Federation, NovosibirskReferences
- Baclawski K, Bennett M, Berg-Cross G, Schneider T, Sharma R, Singer J, Sriram, R.D. Ontology summit 2020 communiqué: Knowledge graphs. Applied Ontology. 2021; 16(2): 229–247. doi: 10.18287/2223-9537-2020-10-4-540-555.
- Simsek U, Umbrich J, Fensel D. Towards a Knowledge Graph Lifecycle: A pipeline for the population of a commercial Knowledge Graph. In: A. Paschke, C. Neudecker, G. Rehm, J.A. Qundus and L. Pintscher (eds): Proceedings of the Conference on Digital Curation Technologies Qurator-2020 (Berlin, Germany, 2020, January 20 21). CEUR Workshop Proceedings, vol. 2535, CEUR-WS.org, https://ceur-ws.org/Vol-2535/paper_10.pdf.
- Fernàndez-Cañellas D. et al. Enhancing Online Knowledge Graph Population with Semantic Knowledge. In: The Semantic Web ISWC 2020. Lecture Notes in Computer Science, vol 12506. Springer, Cham. 2020. 183–200. doi: 10.1007/978-3-030-62419-4_11.
- Cimmino A, García-Castro R. Helio: a framework for implementing the life cycle of knowledge graphs. Semantic Web. Preprint 2022. 1–27. doi: 10.3233/SW-233224.
- Galland A, Abiteboul S, Marian A, Senellart P. Corroborating information from disagreeing views. In: Proceedings of the third ACM international conference on Web search and data mining WSDM-2010. (New York, USA, 2010, February 4–6). 2010. 131–140. doi: 10.1145/1718487.1718504.
- Li X, Dong XL, Lyons KB, Meng W, Srivastava D. Truth finding on the deep web: Is the problem solved? In: Proceedings of the VLDB Endowment. 2012; 6(2): 97–108. doi: 10.14778/2535568.2448943.
- Pochampally R. et al. Fusing data with correlations. In: Proceedings of the 2014 ACM SIGMOD international conference on Management of data SIGMOD-2014 (Snowbird, Utah, USA, 2014, June 22–27). 2014. 433–444. doi: 10.1145/2588555.2593674.
- Dong XL, Gabrilovich E, Murphy K, Dang V, Horn W, Lugaresi C, Sun S, Zhang W. Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources. In: Proceedings of the VLDB Endowment. 2015; 8: 938–949. doi: 10.14778/2777598.2777603.
- Li Y. et al. On the discovery of evolving truth. In: Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining KDD-2015 (Sydney, NSW, Australia, 2015, August 10–13). 2015. 675–684. doi: 10.1145/2783258.2783277.
- Yao L. et al. Online truth discovery on time series data. In: Proceedings of the 2018 SIAM international Conference on Data Mining SDM-2018 (San Diego, USA, 2018, October 6–13). 2018. Society for Industrial and Applied Mathematics. 162–170. doi: 10.1137/1.9781611975321.19.
- Zubiaga A, Liakata M, Procter R, Wong Sak Hoi G, Tolmie P. Analysing how people orient to and spread rumours in social media by looking at conversational threads. PLoS ONE 2016. 11(3): e0150989. doi: 10.1371/journal.pone.0150989.
- Kochkina E, Liakata M, Zubiaga A. All-in-one: Multi-task learning for rumour verification. In: Proceedings of 27th International Conference on Computational Linguistics COLING-2018 (Santa Fe, New-Mexico, USA, 2018, August 20–26). Association for Computational Linguistics (ACL). 2018. 3402–3413. doi: 10.48550/arXiv.1806.03713.
- PHEME dataset for Rumour Detection and Veracity Classification. https://www.kaggle.com/datasets/usharengaraju/pheme-dataset.
- Chen X, Yuan Y, Lu L, Yang J. A multidimensional trust evaluation framework for online social networks based on machine learning. IEEE Access. 2019; 7: 175499–175513. doi: 10.1109/ACCESS.2019.2957779.
- Vyas P, El-Gayar O. Credibility analysis of news on twitter using LSTM: An exploratory study. In: Proceedings of 26th Americas Conference on Information Systems AMCIS 2020 (Virtual conference, 2020, August 10–14). Association for Information Systems. https://scholar.dsu.edu/cgi/viewcontent.cgi?article=1150&context=bispapers.
- Hirlekar VV, Kumar A. Tweet Credibility Detection for COVID-19 Tweets using Text and User Content Features. International Journal of Advanced Computer Science and Applications, 2022; 13(4): 430–439. doi: 10.14569/IJACSA.2022.0130451.