Разработка новых методов улучшения качества речевых сигналов с использованием глубоких нейронных сетей

Поддержан грантом Российского научного фонда (РНФ) в 2022-2023 гг. Номер проекта 22-21-00199

Публикации по тематике проекта (с указанием поддержки фонда):

1. (РИНЦ) Лепендин А.А., Насретдинов Р.С. Разработка метода шумоочистки речевых сигналов для улучшения качества биометрической голосовой верификации // Проблемы правовой и технической защиты информации. Выпуск X. 2022. C. 19-25.

Аннотация: Системы верификации дикторов в последнее время получили широкое применение в большом спектре информационных систем. Этот способ подтверждения личности является крайне удобным, поскольку для регистрации речевых образцов необходим лишь микрофон, имеющийся по умолчанию в большинстве электронных устройств. Однако качество работы подобных систем существенно снижается, когда речевой образец был записан в зашумленных условиях. В данной работе предложена новая модель шумоочистки на основе реккурентных нейронных сетей, которая была апробирована для задачи верификации дикторов. Разработанный подход продемонстрировал на наборе данных DNS Challenge 2020 лучшее качество очистки от шума в сравнении с альтернативными. Он позволил существенно уменьшить уровень ошибок модельной системы верификации дикторов на тестовом наборе данных VoxCeleb1.

Ключевые слова: биометрическая верификация, улучшение качества речи, подавление шума, глубокое обучения, рекуррентная нейронная сеть.

2. (РИНЦ) Насретдинов Р.С., Ильяшенко И.Д., Филин Я.А., Лепендин А.А. Очистка зашумленного речевого сигнала с помощью глубокой нейронной сети с самовниманием // Высокопроизводительные вычислительные системы и технологии. Т. 6, № 1. 2022. С. 44-51.

Аннотация: В работе предложен новый подход к решению задачи эффективной очистки речи от фонового шума, основанный на применении методов машинного обучения. Была разработана и реализована глубокая нейронная сеть с архитектурой «кодер-декодер». Входной зашумленный сигнал после применения оконного преобразования Фурье преобразовывался данной сетью в сжатое представление, на основе которого вычислялась комплексная маска отношения очищенного и искаженного сигналов. При поэлементном применении последней к исходному спектральному разложению сигнала происходило устранение шумового компонента. Для учета сложных корреляций в частотно-временном разложении зашумленного аудиосигнала на каждом этапе преобразования применялись слои с самовниманием. Функция потерь в развитом подходе определялась через масштабно-инвариантное отношение сигнал-возмущение SI-SDR. Обучение проводилось на базе набора данных DNS Challenge 2020, содержащем примеры записей чистой речи и представительные наборы записей различных классов шумов. Сравнение качества работы с лучшими существующими подходами осуществлялось с использованием нескольких распространенных метрик качества (WB-PESQ, NB-PESQ, и др.). Было продемонстрировано преимущество развитого подхода по сравнению с альтернативами. Предложенный подход показал свою эффективность и при дальнейшем развитии может стать основой новых методов улучшения качества речевых аудиозаписей.

Ключевые слова: улучшение качества речи, очистка от шума, маскирование шума, глубокая нейронная сеть, глубокое обучение, архитектура кодер-декодер, самовнимание.

3. (РИНЦ) Карев В.В., Лепендин А.А. Метод извлечения векторов идентичности дикторов с использованием tdnn-сети с триплетной функцией потерь // Труды молодых ученых Алтайского государственного университета. Вып. 19. 2022. С. 219-222.

Аннотация: Применена метрика Васерштейна и подход, основанный на применении триплетной функции потерь, в обучении нейронной сети с временной задержкой для извлечения векторов идентичности дикторов. В качестве предсказательной модели была взята архитектура x-векторов, для предотвращения переобучения к набору данных применены несколько типов аугментации.

Ключевые слова: верификация дикторов, вектор идентичности, нейронная сеть с временной задержкой, метрика Васерштейна, триплетная функция потерь.

4. (РИНЦ, RSCI, DOAJ) Лепендин А.А., Насретдинов Р.С., Ильяшенко И.Д. Метод улучшения качества речи с использованием модифицированного кодирующего-декодирующего пирамидального трансформера // Труды Института системного программирования РАН (Труды ИСП РАН). Т. 34. № 4. 2022. С. 135-152.

Аннотация: Развитие новых технологий голосового общения привело к необходимости совершенствования методов улучшения качества речи. Современные пользователи информационных систем предъявляют высокие требования как к разборчивости голосового сигнала, так и к его субъективно воспринимаемому качеству. Данная работа посвящена развитию нового подхода к решению актуальной задачи улучшения качества речи. Для этого было предложено использовать модифицированную нейронную сеть пирамидального трансформера, использующую двухкомпонентную структуру «кодер-декодер». Кодирующая компонента сети осуществляла сжатие спектра голосового сигнала в пирамидальную серию внутренних представлений. Декодирующая компонента, используя преобразования самовнимания, восстанавливала маску комплексного отношения очищенного и искаженного сигналов на основе вычисленных кодером внутренних представлений. Были рассмотрены две возможные функции потерь для обучения предложенной нейросетевой модели. Показано, что использование частотного кодирования, подмешиваемого к входным данным, позволило улучшить качество работы предложенного подхода. Реализованная на языке Python и библиотеке глубокого обучения PyTorch нейронная сеть обучалась и тестировалась на наборе данных DNS Challenge 2021. Она продемонстрировала высокое качество работы по сравнению с другими современными методами улучшения качества речи. В работе был проведен качественный анализ процесса обучения реализованной нейронной сети, который показал, что предлагаемая нейросетевая модель постепенно переходила от простого маскирования шума на ранних эпохах обучения к восстановлению пропущенных формантных компонент голоса говорящего на более поздних эпохах. Это приводило к высоким значениям численных метрик качества работы предложенного подхода и высокому субъективному качеству речи.

Ключевые слова: улучшение качества речи; очистка от шума; маскирование шума; глубокая нейронная сеть; глубокое обучение; архитектура кодер-декодер; пирамидальный трансформер; самовнимание.

5. (Scopus) Lependin A.A., Filin Y.A. Using deep neural networks with graph attention to effective detection of speech spoofing // AIP Conf. Proc. 2948. 020039. 2023.

Аннотация: This work is devoted to the development of a new method for detecting  fake voice recordings. The basis of the proposed approach was the use of  a deep neural network that converts the processed signal into a  sequence of two intermediate representations. The first representation  was calculated using a convolutional neural network, the second – using a  neural layer with graph attention. As a result of numerical  experiments, the architecture of the convolutional network module and  the method of deciding on the authenticity of the speech signal were chosen. The use of the graph attention layer made it possible to effectively identify the connections of individual time-frequency  components of the signal with each other. Training and testing of the  proposed method was carried out using the open dataset ASVspoof 2019. It  was shown that the chosen neural network architecture has a low error  rate (EER = 0.79%) and has fewer parameters compared to the best  available solutions. Testing the method on other data sets demonstrated a  lower propensity for overfitting.

Ключевые слова: speech communication, speech processing systems, convolutional neural network, artificial neural networks.

6. (Scopus) Nasretdinov R.S., Ilyashenko I.D., Filin Y.A., Lependin A.A. Hierarchical Encoder-Decoder Neural Network with Self-Attention for Single-Channel Speech Denoising // Communications in Computer and Information Science. vol 1733. 2023. pp. 3–14.

Аннотация: In this paper, we present a new approach to effective speech denoising  based on deep learning methods. We used encoder-decoder architecture for  the proposed neural network. It takes a noisy signal processed by  windowed Fourier transform as an input and produces a complex mask which  is the ratio of clean and distorted audio signals. When this mask is  multiplied element-wise to the spectrum of the in-put signal, the noise  component is eliminated. The key component of the approach is usage of  hierarchical structure of the neural network model which allowed one to  process input signal in different scales. We used self-attention layers  to take into account the non-local dependencies in the time-frequency  decomposition of the noisy signal. We used spatial reduction attention  modification to reduce time and memory complexity. The scale-invariant  signal-to-disturbance ratio (SI-SDR) was used as the loss function in  the developed method. The DNS Challenge 2020 dataset, which includes  samples of clean voice records and a representative set of various noise  classes, was used to train the network. To compare performance with the  best existing models several standard quality metrics (WB-PESQ, STOI,  etc.) was used. The proposed method had shown its effectiveness on all  the metrics and can be used to improve the quality of speech audio  recording.

Ключевые слова: Signal processing, Speech enhancement, Noise masking, Encoder-decoder architecture, Self-attention.

7. (РИНЦ) Ладыгин П.С., Лепендин А.А., Мансуров А.В.Определение подлинности музыкальных аудиозаписей с помощью цифровых отпечатков на основе STFT- и CQT-хроматограмм // Высокопроизводительные вычислительные системы и технологии. Т. 7, № 1. 2023. С. 46-52.

Аннотация: В данной работе представлен новый подход к проверке подлинности музыкальных аудиозаписей,основанный на технологии формирования цифрового отпечатка с использованием Фурье- и Q-константных спектральных преобразований. Выполнен сравнительный анализ хроматограмм, полученных с помощью указанных преобразований, проанализирована их эффективность для сравнительного анализа оригинала музыкального произведения с внесенными модификациями по тональности, темпу звучания, а также при замене музыкальных инструментов. Методика формирования цифрового отпечатка и процедура сравнения позволила производить сравнение музыкальных композиций и устанавливать их идентичность с высокой точностью 90-98%, а также корректно идентифицировать заведомо разные музыкальные произведения. Проведен анализ применения различных спектральных разложений при анализе фрагмента аудиофайла оригинальной музыкальной композиции и композиции с модификациями, обсуждается достаточность сформированного вектора признаков и необходимость его расширения дополнительными составляющими временного и дифференциального плана. Предложенный подход может позволить частично автоматизировать проведение экспертных оценок и снизить влияние субъективных факторов при установлении нарушении прав на интеллектуальную собственность для музыкальных произведений.

Ключевые слова: цифровой отпечаток, музыкальный аудиосигнал, спектрограмма, хроматограмма, экспертная оценка, аутентификация аудиозаписей.

8. (РИНЦ) Белослюдов А.С., Лепендин А.А., Филин Я.А. Обнаружение физических атак повторного воспроизведения речи с помощью легкой сверточной сети с графовым вниманием // Проблемы правовой и технической защиты информации. 2023. №11. С. 8-15.

Аннотация: В статье предложена модель, основанная на модификации сверточной нейронной сети LCNN за счет применения слоев графового внимания, способная эффективно обнаруживать физические атаки на данные речи. Показана актуальность и значимость проблемы обнаружения речевых подделок в контексте повышенного интереса к голосовым технологиям и угрозе безопасности, связанной с возможностью подделки или изменения аудиоданных. Проведена реализация предложенного подхода на языке Python с использованием библиотеки PyTorch. Обучение и тестирование модели осуществлено на данных из набора ASVspoof 2019. Проведен выбор числа «голов» в слое графового внимания.Выбранная версия нейросетевой модели сопоставлена по метрикам точности и эквивалентной ошибки EER с базовой моделью, в качестве которой выступала LCNN-сеть.Продемонстрировано превосходство модифицированного подхода, предложенного в данной работе, как по качеству распознавания поддельных голосовых сообщений, так и по числу параметров модели.

Ключевые слова: атака презентации, атака повторным воспроизведением речи, глубокое обучение, легкая сверточная сеть, графовое внимание.

9. (РИНЦ) Ладыгин П.С., Лепендин А.А. Методика снижения влияния малоинформативных участков аудиофайлов на получаемый цифровой отпечаток // Проблемы правовой и технической защиты информации. 2023. №11. С. 29-34.

Аннотация: В данной работе предложена методика снижения влияния малоинформативных участков музыкальных аудиозаписей, содержащих мелодические конструкции, на качество цифровых отпечатков по оригинальному алгоритму.Предварительно проанализированы фрагменты хроматограмм аудиофайлов в области отсутствия полезного сигнала. Показана эффективность применения предварительной фильтрации сигналов на отрезках времени, не содержащих частоты основного тона, в отношение мелодии, исполненной на духовом музыкальном инструменте. Разработанный подход позволил сократить длину вычисляемого отпечатка, что в свою очередь приводит к ускорению работы алгоритмов сопоставления мелодических конструкций между собой.Проведена апробация методики на модификациях аудиозаписей по темпу звучания для различных музыкальных инструментов. Приведены результаты вычислений медианного значения степени схожести цифровых отпечатков до применения фильтрации и после неё, что показало улучшение качества сопоставления мелодических конструкций в среднем на 1,5%, ав отдельных случаях и до 3%. Эмпирически подобран порог фильтрации для аккордовых и безаккордовых мелодий. Данная методика может быть применена в задачах автоматического проведения экспертных оценок при установлении нарушении прав на интеллектуальную собственность для музыкальных произведений.

Ключевые слова: хроматограмма, степень схожести, мелодические конструкции, цифровой отпечаток, фильтрация.

10. (Scopus) Lependin A.A., Karev V.V., Nasretdinov R.S., Ilyashenko I.D. Speech Enhancement based on Two-Stage Neural Network with Structured State Space for Sequence Transformation // Communications in Computer and Information Science. vol 1986. 2024. (принята к печати)

Аннотация: In this paper, a new method for improving speech quality using the Structured State Space for Sequence (S4) transformation was proposed. This method inherits existing two-stage denoising methods using recurrent neural networks. However, the use of S4 layers instead of long-term short-term memory brought improvements in two ways. Firstly, it was possible to achieve a reduction in the number of trained parameters of the neural network, while maintaining the quality of speech enhancement. Secondly, due to the use of the convolutional representation of S4 transformations, the network training time per one epoch has decreased. The proposed two-stage neural network model for denoising was implemented using the PyTorch library. For training and testing, a standard DNS Challenge 2020 dataset was used. The optimal type of the loss unction for training, and the best number of S4 layers was selected. Comparison with existing real-time speech enhancement methods showed that the developed model was one of the best performers for all quality metrics.

Ключевые слова: Speech Technologies, Speech Enhancement, Noise Suppression,Noise Masking, Signal Processing, Deep Learning, Structured State Space forSequence Model.

11. (Scopus) Lependin A.A., Ladygin P.S., Karev V.V., Mansurov A.V. Fourier Chromagrams for Fingerprinting, Verification and Authentication of Digital Audio Recordings / Communications in Computer and Information Science. vol 1986. 2024. (принята к печати)

Аннотация: In this paper, a new approach for calculating binary audio fingerprints was proposed. This approach was based on the analysis of Fourier chromagrams obtained from the processed music recordings (audio files). The calculated binary audio fingerprints allow for bit-by-bit matching and comparison of original and modified music recordings. For performance testing, а dataset of over 50 original recordings of music played on a variety of instruments using different playing techniques was collected. In addition, distorted versions of the original recordings with altered tempo and realistic additive noise were produced and added to the test dataset. Calculations of similarity values between different audio fingerprints within the same groups of music recordings help reveal the expected robustness of the proposed approach against the possible distortions mentioned earlier. The impacts of distortions on chromagrams and calculated audio fingerprints were thoroughly analyzed and discussed in the paper. The median values of the similarity between the original and distorted recordings were found to be greater than 85%. The proposed approach proves to be quite useful in real life forensic studies and tasks of verification and authentication of music pieces and recordings.

Ключевые слова: Digital Fingerprint, Musical Audio Signal, Spectrogram, Fourier Chromagram, Forensic Musicology, Audio Recordings Authentication.

12. (WoS Core Collection) Nasretdinov R.S., Lependin A.A., Ilyashenko I.D. Speech enhancement augmentation for robust speech recognition in noisy environments // ITM Web of Conferences. 2024. (принята к печати)

Аннотация: Использование аугментаций, как метода обогащения данных, стало важным элементом при повышении производительности систем распознавания речи. Для эффективной работы в зашумленных условиях обычно применяется аугментация, имитирующая наличие фоновых шумов. Однако при этом качество распознавания речи на образцах, предварительно обработанных моделями шумоочистки не повышается. В данной работе предложен новый подход к аугментации речевых данных при обучении систем ASR, предназначенный для их совместного применения с моделями улучшения качества речи. Его основой являлось создание нескольких дополнительных выборок данных, содержащих речевые образцы, обработанные моделью улучшения качества. Апробация предложенного подхода проводилась на нейросетевой модели E-Branchformer с использованием данных из набора Librispeech. Качество речевых образцов оценивалось с помощью метрики DNSMOS. На 100-часовой выборке чистых речевых образцов было показано, что предложенная аугментация позволяет получить улучшение метрики WER более чем на 4% по абсолютной величине в сравнении с общепринятым подходом, основанным на добавлении зашумленных речевых образцов. Эксперименты на 960-часовых данных продемонстрировали устойчивость этого подхода при увеличении размера обучающей выборки.

Ключевые слова: automatic speech recognition, speech enhancement, augmentation, deep learning, conformer network.

Исходный

audio_vid_imp_n

audio_vid_imp_s

audio_vid_imp_v

audio_vid_shir_pol

audio_vid_shir_pol_n

audio_vid_shir_pol_s

audio_vid_shir_pol_v

audio_vid_uzk_pol_n

audio_vid_uzk_pol_s

audio_vid_uzk_pol_v

Зашумленный

audio_vid_imp_n

audio_vid_imp_s

audio_vid_imp_v

audio_vid_shir_pol

audio_vid_shir_pol_n

audio_vid_shir_pol_s

audio_vid_shir_pol_v

audio_vid_uzk_pol_n

audio_vid_uzk_pol_s

audio_vid_uzk_pol_v

Очищенный

audio_vid_imp_n

audio_vid_imp_s

audio_vid_imp_v

audio_vid_shir_pol

audio_vid_shir_pol_n

audio_vid_shir_pol_s

audio_vid_shir_pol_v

audio_vid_uzk_pol_n

audio_vid_uzk_pol_s

audio_vid_uzk_pol_v