Ученые обучили ИИ сложным правилам русского языка

26.11.2025

Время чтения: 1 минута

Исследователи МГУ и «Яндекса» нашли способ обучить искусственный интеллект сложным правилам русского языка, для этого они создали набор данных с примерами реальных ошибок, характерных даже для носителей языка — это, например, пунктуация в сложноподчиненных предложениях, слитное и раздельное написание, редкие синтаксические конструкции, рассказали РИА Новости в компании. «Стандартное обучение, когда модели показывают несколько случайных пар «ошибка — исправление», плохо справляется со сложными правилами русского языка. Для системного решения этой проблемы исследователи Института ИИ МГУ и «Яндекса» создали первый открытый датасет LORuGEC с примерами сложных ошибок русского языка… LORuGEC включает примеры реальных ошибок, трудных даже для носителей языка: пунктуация в сложноподчиненных предложениях, слитное и раздельное написание, редкие синтаксические конструкции», — сказали в компании. Созданный датасет охватывает 48 правил русского языка, в том числе те, которые проверяются на Едином государственном экзамене и олимпиадах. Также там есть почти 1000 предложений, каждое из которых связано с конкретной нормой языка.

Ученые придумали новый метод, который позволяет исправлять сложные ошибки без сложного переобучения на созданном датасете — он основан на поиске релевантных примеров в датасете. Так, вспомогательным поисковиком выступает еще одна ИИ-модель Gector: она находит в датасете предложения с тем же типом ошибок и подсказывает их большой языковой модели. Например, если пропущена запятая перед «что», то модель получает пример именно с таким же нарушением, а не любую пунктуационную ошибку.

«Мы использовали справочную литературу, а также привлекли студентов-лингвистов в качестве экспертов и составили датасет из 1000 примеров, в которых не только исправлены ошибки, но и указаны соответствующие правила русского языка. Следующей задачей было научить модели исправлять эти ошибки без долгого переобучения… Этот проект — пример успешной коллаборации между наукой и технологическими компаниями», — прокомментировал на полях Конгресса молодых ученых старший научный сотрудник Института ИИ МГУ, разработчик в отделе «Поиска Яндекса» Алексей Сорокин. Исследователи протестировали новый метод на собственных моделях «Яндекса», а также на зарубежной Qwen2.5. Точность ответов YandexGPT 5 Pro достигла 83%, YandexGPT 5 Lite — поднялась до 71% с 66%, а Qwen2.5-7B — до 56% с 42%.

Источник

Теги

26.11.2025

Время чтения: 1 минута

Читать следующую

Добавить комментарий Отменить ответ

Евгений С.
Я пробовал разные платформы, но KrygerCapital оказался самым...
Виктория Ж.
Огромный плюс KrygerCapital — это то, что ты можешь пополнит...
Роман К.
На российском рынке сейчас практически невозможно найти надё...
Максим Г.
Очень удобный интерфейс, особенно если сравнивать с классиче...
Николай Б.
Понравилось, что в KrygerCapital можно легко и быстро зареги...

Читать следующую

Число пользователей портала «Госуслуги» достигло 120 миллионов человек

NYT: утерянный ЦРУ ядерный аппарат ставит под угрозу жизни миллионов людей

FT назвала гендиректора Nvidia человеком года

Приложение Сбербанка для iPhone пропало из App Store

В Минпромторге рассказали, где можно использовать антропоморфных роботов

Ученые запаниковали из-за приближения «инопланетного корабля» к Земле

«Роснано» предъявило иск о возмещении убытков к отвечавшим за проект Crocus

Назван размер технологического сбора на электронную продукцию в России

Роскомнадзор заявил, что к Telegram не применяют новые ограничения

Ученые рассказали о приближении 3I/ATLAS к Земле

Добавить комментарий Отменить ответ