1 апреля 13:46
Дипфейки и нейросети: как могут быть использованы голосовые данные из Clubhouse
Дмитрий Дырмовский
Гендиректор группы компаний ЦРТ
Поделиться
twtg

Популярность голосовых сообщений набирает обороты — о запуске аналога Clubhouse задумался Facebook, а Telegram в последнем обновлении мессенджера добавил возможность запускать аудиочаты. Гендиректор Группы компаний ЦРТ Дмитрий Дырмовский в колонке для Forbes рассуждает, что можно сделать с голосовыми данными из соцсетей и кому они нужны:

«Каждый день пользователи создают огромные массивы голосовых данных: они пересылают голосовые сообщения в разных мессенджерах, общаются в Zoom, который позволяет записывать разговоры. Есть мессенджер Discord, который геймеры во всем мире используют для голосовых чатов.

Но именно популярность Clubhouse заставила задуматься, как можно использовать большой массив аудиоданных с подобных платформ. Чтобы голосовой формат развивался, на подобные платформы должен прийти крупный бизнес. Компаниям это интересно — и в качестве нового канала коммуникации с пользователями, и в качестве нового канала рекламы и маркетинга. Но если тот же Clubhouse захочет привлечь на свою платформу компании, как это сделали в своё время "традиционные" соцсети (Facebook, Instagram, Twitter, "ВКонтакте"), то ему придётся сделать несколько важных шагов в области обработки голосовых данных и безопасности.

Защита от мошенников

Для того чтобы крупный бизнес пришёл на новую платформу, нужно обеспечить её безопасность. Сейчас Clubhouse менее безопасен, чем другие соцсети.

Было бы логично ввести верификацию аккаунтов, когда пользователь подтверждает свой ID с помощью фотографии, и голосовую биометрию, когда пользователь регистрирует свой голосовой образец. Голосовая биометрия позволит использовать технологии голосового антиспуфинга (от англ. spoof. — мистификация). Эту технологию применяют, например, банки. Если оператор разговаривает с клиентом, который предоставлял голосовую биометрию, система во время разговора мониторит голос и сразу же оповещает оператора, если "видит", что голос чужой (это могут быть такие малозаметные для человеческого уха параметры, как тембр, скорость речи, паузы и т. д.). Крупный бизнес считает, что антиспуфинг — это необходимость, и ждёт, что такие технологии должны быть интегрированы на любой голосовой платформе. Без этого компании вряд ли придут в тот же Clubhouse — по крайней мере так же массово, как сделали это в других соцсетях.

Правда, прямо сейчас возможности мошенничества в том же Clubhouse ограниченные. Может случиться утечка данных с серверов, но априори любая облачная платформа несёт ответственность за данные пользователей, поэтому такие утечки случаются редко. В этом смысле Clubhouse не отличается от любой другой соцсети.

С другой стороны, даже дилетант может легко записать диалог в любой комнате Clubhouse. Для этого даже не нужно специальных технологий и аппаратуры: можно воспользоваться диктофоном или подключить гарнитуру к смартфону, подключиться к звуковой карте компьютера и напрямую записывать происходящее. Но создать настоящий дипфейк (ложный голос человека) так не получится: для качественного клона голоса нужно много часов записи разговора одного и того же человека. При этом уставший голос уже не подходит для синтеза речи. То есть нужно будет найти много часов «хорошего» голоса конкретной персоны, а это трудная задача.

Обучение нейросетей

ИТ-компании, которые занимаются голосовыми технологиями, могут использовать большой массив аудиоданных для обучения нейронных сетей, чтобы улучшить технологии распознавания, диаризацию речи (когда система понимает, кому какие слова принадлежат); на этих данных также можно прорабатывать синтез речи.

Clubhouse здесь выгодно отличается от контакт-центров крупных компаний из банковской сферы, телекома и ретейла. В контакт-центрах 99% разговоров клиентов с операторами происходят вокруг продуктов компании, то есть разговоры однообразны. Система распознавания речи, обученная на таких разговорах, плохо распознаёт диалоги на другие темы. Аудиоданные в Clubhouse более многогранные, люди здесь обсуждают абсолютно любые темы. Чем больше вариативность — тем лучше получается система распознавания. Так что обучение нейросетей на таких аудиоданных позволило бы серьёзно продвинуть голосовые технологии. Сегодня технологии позволяют обучать нейросети практически на лету, без многолетнего накопления аудиоданных: достаточно примерно тысячи часов записанных разговоров, чтобы начать обучение.

Рекламные кампании

Для бизнеса важно, чтобы любой контакт с клиентами или потенциальными клиентами можно было использовать для рекламы и продвижения своих продуктов, а также для сбора данных об аудитории, чтобы лучше таргетировать рекламные активности. Если Clubhouse хочет стать привлекательной рекламной площадкой, платформа должна предоставлять возможности для сбора и аналитики данных. Компании, платя за рекламу, хотят, чтобы она была эффективной, а для этого нужно проанализировать отклики о ней, продукте, услуге, конкурентах. И в Сlubhouse всё это обсуждается не в виде текста, а в виде живой речи. Будет странно собирать этот фидбэк от пользователей вручную, да это и невозможно при таком объёме информации.

Контакт-центры банков, телеком-операторов и крупного ретейла, которые ежедневно обслуживают десятки тысяч голосовых сообщений, давно используют технологии речевой аналитики для мониторинга разговоров операторов с клиентами. Благодаря этому анализу компании могут быстро менять сценарии продаж, тарифы под спрос практически в режиме реального времени. И когда этот крупный бизнес начнёт активно заходить в тот же Clubhouse, он будет ожидать, что сможет воспользоваться привычными инструментами. Для этого соцсети нужно выстроить те же самые системы, которые позволяют копить, обрабатывать и анализировать голосовые данные.

Вряд ли Clubhouse будет разрабатывать их с нуля скорее привлечёт сторонних партнёров. В банках и у телеком-операторов внедрение и настройка таких систем занимает от трёх до шести месяцев. Конечная стоимость проекта может достигать десятков миллионов рублей и будет зависеть от объёма данных, то есть количества часов разговоров в сутки, которые нужно обрабатывать, а также от того, какое количество тем и отчётов эта система должна извлекать.

Конечно, всё это должно происходить с согласия пользователей, поэтому, вероятно, в комнатах Clubhouse просто появится дополнительный функционал — включение и отключение записи, как это сейчас сделано в ZOOM. Также можно будет включать и отключать речевую аналитику и голосовую биометрию, что важно с точки зрения безопасности. Глобально всё это должно иметь выгоду и для площадки, и для бизнеса, и для пользователей. В контакт-центрах это есть: бизнесу важно слышать голос клиента, реагировать, повышать лояльность. Клиент не против записи диалогов, потому что это улучшает его клиентский опыт. Такой же подход должен быть и в Clubhouse.

Анализ эмоций

Анализировать эмоции и влияние голоса на аудиторию можно уже сейчас, но важно анализировать речь именно в контексте разговора. Так можно понять, что вызвало конкретную эмоцию и как её избежать в будущем, если она негативная.

Такие технологии и процессы уже обкатаны в крупных контакт-центрах, так что в Clubhouse всё будет выглядеть примерно так же. Например, клиент в брендированной или обычной комнате, где включили речевую аналитику, при разговоре с сотрудником компании, который не решил его проблему, абсолютно спокойно говорит: "У вас отвратительный сервис". А другой клиент, которому проблему не могут решить уже не в первый раз, не злится, а принимает решение уйти к конкуренту — и сообщает об этом специалисту с улыбкой: "Ну, хорошо вам оставаться, я, пожалуй, с вами расстаюсь". Простая оценка эмоций здесь не покажет реальной картины, важно понимать контекст взаимодействия и быстро на него реагировать. Поэтому современные технологии речевой аналитики используют для такой оценки несколько десятков параметров — и это позволяет, например, быстро исправить скрипт (сценарий диалога с клиентом, в котором прописаны возможные возражения клиента, ответы на эти возражения оператора и т. д. — Forbes)».

Источник: https://www.forbes.ru/tehnologii/424521-dipfeyki-i-neyroseti-kak-mogut-byt-ispolzovany-golosovye-dannye-iz-clubhouse.

Дмитрий Дырмовский
Гендиректор группы компаний ЦРТ
Поделиться
twtg
Ещё по теме Технологии
  • Сбер и Сколтех создают экосистему искусственного интеллекта для нужд медицины

    Группа компаний Сбер и Сколковский институт науки и технологий объявили о подписании сделки по созданию экосистемы для развития искусственного интеллекта в здравоохранении России. Оператором выступит созданная летом 2020 года компания СберМедИИ. Экосистема объединяет разработки научных команд Сколтеха с «облачной» инженерной инфраструктурой Сбера и станет технологическим фундаментом для создания сервисов в здравоохранении.
    28 декабря 15:12
  • Первая серия беспилотников Sber выехала на улицы Москвы для испытаний

    Первые беспилотные автомобили Sber Automotive Technologies выехали на улицы Москвы для испытаний в условиях зимнего мегаполиса: беспилотники пройдут проверку высокой влажностью, отрицательной температурой, плохой обзорностью и тяжёлой дорожной обстановкой.
    22 декабря 11:35

Мы используем файлы cookie

ПАО Сбербанк использует cookie (файлы с данными о прошлых посещениях сайта) для персонализации сервисов и удобства пользователей. Сбербанк серьезно относится к защите персональных данных — ознакомьтесь с условиями и принципами их обработки. Вы можете запретить сохранение cookie в настройках своего браузера.