Обучение нейромоделей для машинного понимания естественного текста. Алгоритм Brain2Text. 2018.

А. Артемов, А.Сергеев, И. Хасеневич, А. Южаков, М. Чугунов

Сегодня Интернет представляет собой обширное информационное пространство, растущее в геометрической прогрессии, что делает проблему поиска данных в нем актуальной как никогда. Предложенный в статье алгоритм позволяет выполнять естественно-языковые запросы по содержанию документа и получать исчерпывающие содержательные ответы. Задача частично решена для английского языка, так как набор данных SQuAD содержит достаточно данных для обучения, однако подобный набор данных отсутствует в русском языке, поэтому методы, используемые сейчас, в большинстве неприменимы к русскому языку.

Фреймворк для обучения нейронных сетей Brain2 позволяет решить проблему – его особенностью является возможность обучения на небольших наборах данных; также он не требует значительных вычислительных мощностей. Алгоритм проиллюстрирован на тексте стратегии Сбербанка России и предполагает использование нейромодели, состоящей из 65 млн. синапсов. Обученная модель способна генерировать ответы на вопросы на основе заданного текста. Существующие ограничения заключаются в его нынешней неспособности идентифицировать синонимы, местоимения и аллегории. Тем не менее, результаты проведенных экспериментов показали значительный потенциал и обобщающую способность предложенного подхода.

https://arxiv.org/abs/1804.00551