25 августа 10:18
Уступают только человеку: языковые модели от SberDevices стали лучшими в мире по пониманию текстов на русском языке
Поделиться
twtg

Разработанная SberDevices текстовая модель ruRoberta-large finetune стала лучшей по пониманию текста в соответствии с оценкой главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE, уступая по точности только человеку. Также в шестёрку лидеров вошло ещё четыре модели от SberDevices: ruT5-large-finetune, ruBert-large finetune, ruT5-base-finetune, ruBert-base finetune.

Успешно обучив языковую модель ruBERT, в Сбере стали развивать её более продвинутую версию — ruRoBERTa. Архитектурно это тот же BERT, обученный на большом корпусе текста, только на задачу восстановления маскированных токенов, на большом батч-сайзе и с токенизатором BBPE от нейросети ruGPT-3. Обучение модели на суперкомпьютере «Кристофари» заняло три недели, итоговый датасет (250 Гб текста) был похож на тот, что использовался для ruGPT-3, однако из него был удалён английский и часть «грязного» Common Crawl.

Лидерборд Russian SuperGLUE (General Language Understanding Evaluation) — первый рейтинг нейросетей для русского языка. Место в рейтинге зависит от того, насколько качественно нейросеть выполняет задания на логику, здравый смысл, целеполагание и понимание смысла текста. Это открытый проект, которым пользуются все исследователи данных, работающие с русскоязычными нейросетями.

Оценка общего понимания языка начинается в рейтинге с набора тестов, отражающих различные языковые явления — диагностического датасета. Он отражает лингвистические феномены языка и показывает, насколько модель ruRoberta-large finetune понимает те или иные его особенности. Высокий скор (LiDiRus) говорит о том, что модель не просто запомнила задания или угадывает результат, а выучивает особенности и осваивает разнообразие феноменов русского языка.

Каждая модель также оценивается посредством различных заданий, среди которых DaNetQA — набор вопросов на здравый смысл и знание, с ответом «да» или «нет», RCB (Russian Commitment Bank) — классификация наличия причинно-следственных связей между текстом и гипотезой из него, PARus (Plausible Alternatives for Russian) — целеполагание, выбор из альтернативных вариантов на основе здравого смысла и другие.

Лучшие специалисты Сбера несколько лет занимаются совершенствованием нейросетей для русского языка. Для их объективной оценки существует лидерборд Russian SuperGLUE, который чётко показывает прогресс в данной работе. Наша конечная цель — создание надёжных интеллектуальных систем для решения разноплановых задач на русском языке, которые могут стать предшественниками сильного искусственного интеллекта отечественной сборки

Поделиться
twtg
Ещё по теме Технологии
  • Сбер и Сколтех создают экосистему искусственного интеллекта для нужд медицины

    Группа компаний Сбер и Сколковский институт науки и технологий объявили о подписании сделки по созданию экосистемы для развития искусственного интеллекта в здравоохранении России. Оператором выступит созданная летом 2020 года компания СберМедИИ. Экосистема объединяет разработки научных команд Сколтеха с «облачной» инженерной инфраструктурой Сбера и станет технологическим фундаментом для создания сервисов в здравоохранении.
    28 декабря 15:12
  • ФЛИП: полностью автономный транспорт от SberAutoTech

    Компания экосистемы Сбера — SberAutoTech — представила прототип полностью автономного электрического транспорта собственной разработки. Новинка получила название ФЛИП и реализует концепцию новой мобильности: полностью беспилотное транспортное средство (максимальный, пятый уровень автономности по международной классификации) обеспечивает быстрое, безопасное и комфортное перемещение пассажиров с использованием новейших технологий из мира IT и автомотив.
    27 мая 9:57

Мы используем файлы cookie

ПАО Сбербанк использует cookie (файлы с данными о прошлых посещениях сайта) для персонализации сервисов и удобства пользователей. Сбербанк серьезно относится к защите персональных данных — ознакомьтесь с условиями и принципами их обработки. Вы можете запретить сохранение cookie в настройках своего браузера.