Российская технология распознавания речи группы компаний ЦРТ Сбербанка признана лучшей в мире

Ольга Шарипова   
12.05.2020 22:10

Технология сегментирования аудиопотока (диаризации) и распознавания речи, созданная группой компаний ЦРТ (входит в экосистему Сбербанка), признана лучшей на международном конкурсе CHiME Speech Separation and Recognition Challenge (CHiME-6).

Высокое признание технология получила за распознавание английской речи с нескольких микрофонов в условиях естественной обстановки.

Как сообщает пресс-служба Сбербанка, группа ЦРТ показала наилучшие результаты тестов в самой сложной задаче конкурса, значительно превзойдя конкурентов.

Организаторы CHiME предлагают сильнейшим командам со всего мира различные задачи, которые с каждым новым конкурсом усложняются. На CHiME-5, конкурсанты решали так называемую cocktail party problem – распознавание спонтанной речи нескольких дикторов в условиях частичного наложения речи и шума, то есть в типичной ситуации общения на вечеринке. Этот блок требовал работы с сегментированной (уже выделенной) речью. Новизна и особенность CHiME-6 заключалась в том, что впервые в истории конкурсантам было предложено решить аналогичную проблему, но работая с несегментированной речью, при этом – с перекрытием речи до 20%. Именно на решении этой – самой сложной – задачи сфокусировалась команда ЦРТ.

Записи для конкурса были сделаны на 20 ужинах в реальных домах на вечеринках, где люди готовили, ели, мыли посуду, свободно и эмоционально общались, шутили и смеялись. Распознавание речи здесь осложняет одновременная речь 2-4 человек, реверберация и интенсивный шум: звон приборов, льющаяся из крана вода, гул кондиционера, шаги, смех.

Цель участников – создать систему распознавания, которая «прослушает» записи и выдаст полную расшифровку с наименьшим количеством ошибок. Команда группы ЦРТ заняла первое место.

Для этого был разработан уникальный алгоритм выделения речевых сегментов для каждого из дикторов, а также создан комплекс из нескольких нейронных сетей разных архитектур, различающий разных дикторов, реализующий бимформинг (эффект нацеливания микрофонов на конкретного диктора) и непосредственно распознающий речь.

Кроме группы ЦРТ в конкурсе участвовали научные команды со всего мира: и известные IT-компании (Toshiba и ряд других), и крупные университеты-лидеры в области речевых технологий: Университет Джонса Хопкинса (США), Университет науки и технологии Китая, Технический университет Брно (Чехия) и др.

– Группа ЦРТ уже 30 лет создает, развивает и совершенствует речевые технологии. В этом году на CHiME-6 впервые в истории стояла самая сложная задача – работа с несегментированной речью. Качественное распознавание речи разных дикторов, при этом перебиваемой шумами, позволяет выводить сервисы из разряда инновационных в повседневное применение, совершенствуя бизнес и упрощая нашу жизнь, – отметил генеральный директор группы компаний ЦРТ Дмитрий Дырмовский.

Он заявил, что качественная обработка несегментированной речи позволит, к примеру, вести грамотное протоколирование совещаний, где говорит сразу несколько спикеров, а интеллектуальная речевая аналитика позволит автоматизировать работу контактных центров: распознавать спонтанную речь, классифицировать голосовые обращения, выявлять соблюдения скрипта, делать выводы об удовлетворенности клиента и качестве диалога, а значит – существенно оптимизировать работу современных контакт-центров ретейла, e-commerce и телеком.

– Признание группы ЦРТ в этом международном конкурсе – не просто наша личная победа, но знаковое событие для всей индустрии, и мы рады выводить решение задач в области распознавания речи, над которыми работают сильнейшие команды со всего мира, на новый уровень, достойно представляя свои ключевые компетенции на глобальном рынке, – продолжил Дмитрий Дырмовский.

– Задача CHiME – обеспечить обмен опытом сильнейших команд со всего мира и продвинуть вперед решение глобальных задач в области распознавания речи. И мы приветствуем достижения группы компаний ЦРТ в этой области, – выразил свое мнение представитель Университета Шеффилд, участник организационного комитета CHiME Challenge Джон Баркер.

Новости компаний

Количество проектов по переработке алюминия наращивает РУСАЛ

Красноярский алюминиевый завод (КрАЗ) впервые переработал партию алюминиевого лома банки. Это важный проект в стратегии РУСАЛа по наращиванию переработки алюминия.

 
Автомобилисты в этом году чаще выбирали японские, немецкие и российские автомобили

Специалисты СберСтрахования подвели итоги первого квартала 2024 года и выяснили, какие автомобили чаще всего страховали по каско жители Иркутской области. Об этом сообщает пресс-служба Сбера.

 
Интерактивную песочницу подарил РУСАЛ детскому саду в Братске

Занятия в 51-м детском саду Братска стали ярче и интереснее благодаря появлению интерактивной песочницы. Средства на игровой комплекс направила компания РУСАЛ, сообщает БСТ.

 
Сбер на «ИННОПРОМ. Центральная Азия»: как ИИ может повлиять на развитие экономики Узбекистана и образование в вузах

Сбер рассказал о сотрудничестве с Узбекистаном в сфере ИИ, развитии отраслей экономики с помощью ИИ, рейтинге вузов по качеству подготовки в сфере ИИ в Узбекистане и о новой версии Kandinsky 3.1 на международной промышленной выставке «ИННОПРОМ. Центральная Азия» в Ташкенте. Об этом сообщает пресс-служба компании.

 
Генеральным партнером всероссийской акции «Библионочь» стала компания Эн+

Энергетический холдинг Эн+ стал основным партнером 13-го ежегодного национального просветительского мероприятия «Библионочь», которое состоится 20 апреля. Тема мероприятия в 2024 году - «Читаем всей семьей».

Метки:
 

История Оксаны Костиной, художественная гимнастика

Видеосюжеты
Сергей Шмидт: Срок