ОБ ИСПОЛЬЗОВАНИИ МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧАХ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА НА ПРИМЕРЕ АНАЛИЗА ОБРАЗОВАТЕЛЬНОГО КОНТЕНТА


Цитировать

Полный текст

Аннотация

Рассмотрены наиболее популярные подходы к различным задачам обработки естественного языка (NLP), пре- имущественно использующие машинное обучение: от классических до передовых технологий. Большую часть подходов можно разделить на три подмножества. В одном - используют гипотезу дистрибутивной семантики, в другом - информацию из графовых баз знаний (например, онтологий), и в третьем - анализируют лексико- синтаксические шаблоны в документах. Основной фокус статьи на первом из этих подходов. Один из наиболее важных подготовительных шагов NLP – это задача представления документов в виде числовых векторов. Су- ществуют различные методы, начиная от простейшей модели ―Мешок Слов‖ и заканчивая изощрѐнными под- ходами к машинному обучению, например вложению слов. На сегодняшний день в задаче поиска информации самое высокое качество и для английского, и для русского языков достижимо подходами на основе алгоритмов вложения слов, тренированных на тщательном подборе корпусов в сочетании с синтаксическим и семантиче- ским анализом на основе различных глубоких нейронных сетей. Различные алгоритмы машинного обучения используются в задачах NLP таких как тегирование частей речи, реферирование текстов, распознавание имено- ванных сущностей, классификация документов, извлечение тем и отношений сущностей, и вопросно-ответные системы на естественном языке. Рассмотрена применимость данных алгоритмов к анализу образовательного контента, а также предложен подход к приложению возможностей NLP и машинного обучения к анализу и син- тезу образовательного контента в виде системы поддержки принятия решений.

Об авторах

А.В. Мельников

Челябинский государственный университет, Институт информационных технологий, Челябинск, Россия

Автор, ответственный за переписку.
Email: mav@csu.ru

Д.С. Ботов

Челябинский государственный университет, Институт информационных технологий, Челябинск, Россия

Email: dmbotov@gmail.com

Ю.Д. Кленин

Челябинский государственный университет, Институт информационных технологий, Челябинск, Россия

Email: jklen@yandex.ru

Список литературы

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© А.В. Мельников, Д.С. Ботов, Ю.Д. Кленин, 2018



СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: серия ФС 77 - 70157 от 16.06.2017.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах