Российская технология распознавания речи группы компаний ЦРТ Сбербанка признана лучшей в мире

Ольга Шарипова   
12.05.2020 22:10

Технология сегментирования аудиопотока (диаризации) и распознавания речи, созданная группой компаний ЦРТ (входит в экосистему Сбербанка), признана лучшей на международном конкурсе CHiME Speech Separation and Recognition Challenge (CHiME-6).

Высокое признание технология получила за распознавание английской речи с нескольких микрофонов в условиях естественной обстановки.

Как сообщает пресс-служба Сбербанка, группа ЦРТ показала наилучшие результаты тестов в самой сложной задаче конкурса, значительно превзойдя конкурентов.

Организаторы CHiME предлагают сильнейшим командам со всего мира различные задачи, которые с каждым новым конкурсом усложняются. На CHiME-5, конкурсанты решали так называемую cocktail party problem – распознавание спонтанной речи нескольких дикторов в условиях частичного наложения речи и шума, то есть в типичной ситуации общения на вечеринке. Этот блок требовал работы с сегментированной (уже выделенной) речью. Новизна и особенность CHiME-6 заключалась в том, что впервые в истории конкурсантам было предложено решить аналогичную проблему, но работая с несегментированной речью, при этом – с перекрытием речи до 20%. Именно на решении этой – самой сложной – задачи сфокусировалась команда ЦРТ.

Записи для конкурса были сделаны на 20 ужинах в реальных домах на вечеринках, где люди готовили, ели, мыли посуду, свободно и эмоционально общались, шутили и смеялись. Распознавание речи здесь осложняет одновременная речь 2-4 человек, реверберация и интенсивный шум: звон приборов, льющаяся из крана вода, гул кондиционера, шаги, смех.

Цель участников – создать систему распознавания, которая «прослушает» записи и выдаст полную расшифровку с наименьшим количеством ошибок. Команда группы ЦРТ заняла первое место.

Для этого был разработан уникальный алгоритм выделения речевых сегментов для каждого из дикторов, а также создан комплекс из нескольких нейронных сетей разных архитектур, различающий разных дикторов, реализующий бимформинг (эффект нацеливания микрофонов на конкретного диктора) и непосредственно распознающий речь.

Кроме группы ЦРТ в конкурсе участвовали научные команды со всего мира: и известные IT-компании (Toshiba и ряд других), и крупные университеты-лидеры в области речевых технологий: Университет Джонса Хопкинса (США), Университет науки и технологии Китая, Технический университет Брно (Чехия) и др.

– Группа ЦРТ уже 30 лет создает, развивает и совершенствует речевые технологии. В этом году на CHiME-6 впервые в истории стояла самая сложная задача – работа с несегментированной речью. Качественное распознавание речи разных дикторов, при этом перебиваемой шумами, позволяет выводить сервисы из разряда инновационных в повседневное применение, совершенствуя бизнес и упрощая нашу жизнь, – отметил генеральный директор группы компаний ЦРТ Дмитрий Дырмовский.

Он заявил, что качественная обработка несегментированной речи позволит, к примеру, вести грамотное протоколирование совещаний, где говорит сразу несколько спикеров, а интеллектуальная речевая аналитика позволит автоматизировать работу контактных центров: распознавать спонтанную речь, классифицировать голосовые обращения, выявлять соблюдения скрипта, делать выводы об удовлетворенности клиента и качестве диалога, а значит – существенно оптимизировать работу современных контакт-центров ретейла, e-commerce и телеком.

– Признание группы ЦРТ в этом международном конкурсе – не просто наша личная победа, но знаковое событие для всей индустрии, и мы рады выводить решение задач в области распознавания речи, над которыми работают сильнейшие команды со всего мира, на новый уровень, достойно представляя свои ключевые компетенции на глобальном рынке, – продолжил Дмитрий Дырмовский.

– Задача CHiME – обеспечить обмен опытом сильнейших команд со всего мира и продвинуть вперед решение глобальных задач в области распознавания речи. И мы приветствуем достижения группы компаний ЦРТ в этой области, – выразил свое мнение представитель Университета Шеффилд, участник организационного комитета CHiME Challenge Джон Баркер.

Новости компаний

Сбер: жителям Иркутской области, Забайкалья, Бурятии и Якутии доступен «Сниженный платеж» по ипотеке

Сбер с 10 декабря запустил опцию «Сниженный платеж», которая позволяет заёмщику взять ипотеку по базовой программе и снизить ежемесячный платёж на 30% в первые 13 месяцев пользования ипотекой. Об этом сообщает пресс-служба банка.

 
Искусственный интеллект стал применяться для анализа качества алюминиевых слитков

РУСАЛ начал использовать искусственный интеллект для анализа микроструктуры алюминиевых слитков. Эта собственная технология компании сокращает время анализа каждого образца с нескольких часов до 15 минут и позволяет избавить сотрудников от большого объема рутинной работы.

 
Нейросеть Сбера GigaChat MAX успешно сдала экзамен медуниверситета по специальности «Кардиология»

Нейросетевая модель Сбера GigaChat MAX прошла дообучение на датасете по специальности «Кардиология» и сдала экзамен в Волгоградском государственном медицинском университете. Об этом сообщает пресс-служба компании.

 
В Иркутске выданы первые СберКарты Ветерана. В Иркутской области за оформлением обратились более 100 человек

Ветераны боевых действий могут оформить и получить в отделениях Байкальского банка СберКарту Ветерана, сообщает пресс-служба Сбера.

 
Братчанок наградили за победу в фотоконкурсе РУСАЛа

В Братске наградили победителей новогоднего фотоконкурса, который прошел в социальных сетях РУСАЛа.

Метки:
 

История Оксаны Костиной, художественная гимнастика

Видеосюжеты
Сергей Шмидт: Срок