Статьи за последние 2 года
   
Multi-channel transformer: A transformer-based model for multi-speaker speech recognition / Fadeeva E. S., Ershov V. A. // Информат. Телекоммуникации. Упр. Электрон. ж.— 2022 т. 15 № 4.— C. 73-85.— английский
 
Источник: 
 - Выпуск сериального издания ( 1 )
 
Автор: 
 - Персоналии ( 2 )
Постоянная ссылка (СИД2) J2102442969
Название - перевод на рус. язык Многоканальный преобразователь: модель на основе трансформатора для речи с несколькими динамиками
Название Multi-channel transformer: A transformer-based model for multi-speaker speech recognition
Автор Fadeeva E. S.
Автор Ershov V. A.
Источник Информатика. Телекоммуникации. Управление. Электронный журнал
Страницы/Объём 73-85
Сокращ. назв. источника Информат. Телекоммуникации. Упр. Электрон. ж.
Год 2022
Том 15
Номер 4
Адрес в Интернет http://elibrary.ru/item.asp?id=50183763
Постоянная ссылка (СИД) J21024429
Ключевые слова (авторские) Multi-speaker speech recognition%diarization%speech recognition%speech separation%voice
Место хранения Удаленный доступ. Эл. регистр. НЭБ
Дата регистрации в ВИНИТИ 06.02.2023
Язык текста английский
Аннотация Most of the modern approaches to multi-speaker speech recognition are either not applicable in case of overlapping speech or require a lot of time to run, which can be critical, for example, in case of real-time speech recognition. In this paper, a transformer-based end-to-end model for overlapping speech recognition is presented. It is implemented by using a generalization of the standard approach to speech recognition. The introduced model achieves results comparable in quality to modern state-of-the-art models, but requires less model calls, which speeds up the inference. In addition, a procedure for generating synthetic data for model training is described. This procedure allows to compensate for the lack of real multi-speaker speech training data by creating a stream of data from the initial collection
Тематический раздел Автоматика и радиоэлектроника
Тематический раздел Информатика
Тематический раздел Физика
Издательский номер в РЖ 23.12-24Е.55
Издательский номер в РЖ 24.01-59.277
Шифр ГРНТИ 47.55.35
Шифр ГРНТИ 20.53.15
Ключевые слова распознавание речи, несколько динамиков, разделение речи, генерация синтетических данных, моделирование