Untitled Page

Статьи за последние 2 года

Multi-channel transformer: A transformer-based model for multi-speaker speech recognition / Fadeeva E. S., Ershov V. A. // Информат. Телекоммуникации. Упр. Электрон. ж.— 2022 т. 15 № 4.— C. 73-85.— английский

Источник:

- Выпуск сериального издания ( 1 )

Автор:

- Персоналии ( 2 )

Постоянная ссылка (СИД2)	J2102442969
Название - перевод на рус. язык	Многоканальный преобразователь: модель на основе трансформатора для речи с несколькими динамиками
Название	Multi-channel transformer: A transformer-based model for multi-speaker speech recognition
Автор	Fadeeva E. S.
Автор	Ershov V. A.
Источник	Информатика. Телекоммуникации. Управление. Электронный журнал
Страницы/Объём	73-85
Сокращ. назв. источника	Информат. Телекоммуникации. Упр. Электрон. ж.
Год	2022
Том	15
Номер	4
Адрес в Интернет	http://elibrary.ru/item.asp?id=50183763
Постоянная ссылка (СИД)	J21024429
Ключевые слова (авторские)	Multi-speaker speech recognition%diarization%speech recognition%speech separation%voice
Место хранения	Удаленный доступ. Эл. регистр. НЭБ
Дата регистрации в ВИНИТИ	06.02.2023
Язык текста	английский
Аннотация	Most of the modern approaches to multi-speaker speech recognition are either not applicable in case of overlapping speech or require a lot of time to run, which can be critical, for example, in case of real-time speech recognition. In this paper, a transformer-based end-to-end model for overlapping speech recognition is presented. It is implemented by using a generalization of the standard approach to speech recognition. The introduced model achieves results comparable in quality to modern state-of-the-art models, but requires less model calls, which speeds up the inference. In addition, a procedure for generating synthetic data for model training is described. This procedure allows to compensate for the lack of real multi-speaker speech training data by creating a stream of data from the initial collection
Тематический раздел	Автоматика и радиоэлектроника
Тематический раздел	Информатика
Тематический раздел	Физика
Издательский номер в РЖ	23.12-24Е.55
Издательский номер в РЖ	24.01-59.277
Шифр ГРНТИ	47.55.35
Шифр ГРНТИ	20.53.15
Ключевые слова	распознавание речи, несколько динамиков, разделение речи, генерация синтетических данных, моделирование