Яндекс
✏️Большие языковые модели хорошо пишут тексты, но ошибаются в сложной грамматике и пунктуации.
Исследователи Яндекса и Института ИИ МГУ создали открытый датасет LORuGEC с трудными правилами русского языка и метод обучения Retrieval-Augmented Generation (с англ. «генерация, усиленная поиском»).
1️⃣ Датасет LORuGEC. Вместе со студентами-лингвистами мы собрали тысячу примеров, в которых каждой ошибке соответствует правило русского языка. Всего они охватывают 48 правил, включая сложные, например пунктуации в сложноподчинённых предложениях.
🔴 Какую проблему решает? Существующие наборы данных для проверки русского языка почти не содержат сложных правил. Например, где нужна запятая перед «и» или как правильно писать «оттого» и «от того». Поэтому модели путаются и прибегают к гиперисправлениям — вместо мелкой правки иногда переписывают всю фразу.
2️⃣ Метод обучения. Дообученная модель-поисковик GECTOR находит в датасете предложения с тем же типом ошибок и подсказывает их генеративной модели. Например, если пропущена запятая перед «что», модель получает пример именно с такой ошибкой, а не случайную пунктуационную ошибку.
🔴 Какую проблему решает? Учит модели точно исправлять ошибки без сложного переобучения на новых данных из датасета. С методом точность исправлений сложных ошибок выросла на 5–10% по международному стандарту оценки грамматической коррекции.
↘️ Статья о датасете и методе дообучения получила приз на конференции ACL 2025. LORuGEC и GECTOR выложены в открытый доступ для исследователей и разработчиков. Применяйте его для создания образовательных сервисов.
Подписывайтесь ❌ @yandex