21 мая 12:14
Сбер открывает доступ к датасету Golos — самому большому набору речевых данных на русском, размеченному вручную
Поделиться
twtg

Сбер открывает доступ к датасету Golos — самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных, а также обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой. Датасет можно скачать на сайте GitHub.

Разрабатывать речевые технологии проще

Данные могут быть использованы для распознавания и синтеза речи. Сбер предоставляет их по лицензии, допускающей использование в исследовательских и коммерческих целях, а это более одного миллиона коротких записей русской речи и соответствующие транскрипции.

Над датасетом работала команда SberDevices: создание такой базы стало возможным благодаря разработке семейства виртуальных ассистентов Салют. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Аудиофайлы записаны при помощи краудсорсинговой платформы и специальной студии. Датасет Golos составляют обезличенные записи, прослушанные и размеченные вручную. Точная разметка, полученная благодаря тройному перекрытию, позволяет создавать качественные речевые технологии и продукты.

Помимо данных, Сбер выкладывает обученную на них модель распознавания речи. Она обучалась с использованием мощностей суперкомпьютера «Кристофари» от Сбера на 16 видеокартах Nvidia Tesla V100 в течение восьми дней. Доступная для использования акустическая модель QuartzNet 15x5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos.

Открытие датасета Golos — это очень важный шаг для развития речевых технологий в России, и мы в Сбере рады, что можем применить свой опыт в этой области и продолжить наш тренд делиться своими наработками и технологиями с разработчиками и научным сообществом. Речевые технологии сейчас очень активно внедряются во всех сферах. При этом уже существует масса открытых данных на английском языке, но такого качественного русскоязычного датасета не было. Теперь же есть доступные данные и на русском языке, которые можно использовать для распознавания и синтеза речи, а обученная на них модель показывает очень высокое качество. Мы верим, что датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологий

SberDevices — компания экосистемы Сбера, центр экспертизы по решениям на основе искусственного интеллекта в таких областях, как речевые технологии, технологии понимания естественного языка, лицевая и голосовая биометрия. Компания также фокусируется на создании умных устройств для конечных потребителей и корпоративных клиентов. SberDevices учреждена в мае 2019 года в качестве Департамента блока «Технологии» Сбербанка.

Поделиться
twtg
Ещё по теме Технологии
  • Сбер и Сколтех создают экосистему искусственного интеллекта для нужд медицины

    Группа компаний Сбер и Сколковский институт науки и технологий объявили о подписании сделки по созданию экосистемы для развития искусственного интеллекта в здравоохранении России. Оператором выступит созданная летом 2020 года компания СберМедИИ. Экосистема объединяет разработки научных команд Сколтеха с «облачной» инженерной инфраструктурой Сбера и станет технологическим фундаментом для создания сервисов в здравоохранении.
    28 декабря 15:12
  • ФЛИП: полностью автономный транспорт от SberAutoTech

    Компания экосистемы Сбера — SberAutoTech — представила прототип полностью автономного электрического транспорта собственной разработки. Новинка получила название ФЛИП и реализует концепцию новой мобильности: полностью беспилотное транспортное средство (максимальный, пятый уровень автономности по международной классификации) обеспечивает быстрое, безопасное и комфортное перемещение пассажиров с использованием новейших технологий из мира IT и автомотив.
    27 мая 9:57

Мы используем файлы cookie

ПАО Сбербанк использует cookie (файлы с данными о прошлых посещениях сайта) для персонализации сервисов и удобства пользователей. Сбербанк серьезно относится к защите персональных данных — ознакомьтесь с условиями и принципами их обработки. Вы можете запретить сохранение cookie в настройках своего браузера.