Sticker Collection Logo
Яндекс
yandex

Технологии будущего и сервисы, которые делают жизнь лучше уже сегодня ya.ru

Яндекс

✏️Большие языковые модели хорошо пишут тексты, но ошибаются в сложной грамматике и пунктуации. Исследователи Яндекса и Института ИИ МГУ создали открытый датасет LORuGEC с трудными правилами русского языка и метод обучения Retrieval-Augmented Generation (с англ. «генерация, усиленная поиском»). 1️⃣ Датасет LORuGEC. Вместе со студентами-лингвистами мы собрали тысячу примеров, в которых каждой ошибке соответствует правило русского языка. Всего они охватывают 48 правил, включая сложные, например пунктуации в сложноподчинённых предложениях. 🔴 Какую проблему решает? Существующие наборы данных для проверки русского языка почти не содержат сложных правил. Например, где нужна запятая перед «и» или как правильно писать «оттого» и «от того». Поэтому модели путаются и прибегают к гиперисправлениям — вместо мелкой правки иногда переписывают всю фразу. 2️⃣ Метод обучения. Дообученная модель-поисковик GECTOR находит в датасете предложения с тем же типом ошибок и подсказывает их генеративной модели. Например, если пропущена запятая перед «что», модель получает пример именно с такой ошибкой, а не случайную пунктуационную ошибку. 🔴 Какую проблему решает? Учит модели точно исправлять ошибки без сложного переобучения на новых данных из датасета. С методом точность исправлений сложных ошибок выросла на 5–10% по международному стандарту оценки грамматической коррекции. ↘️ Статья о датасете и методе дообучения получила приз на конференции ACL 2025. LORuGEC и GECTOR выложены в открытый доступ для исследователей и разработчиков. Применяйте его для создания образовательных сервисов. Подписывайтесь ❌ @yandex