
Терейковская Л.А.
Tereikovska Liudmyla
Розроблено засоби розпізнавання емоційного стану диктора. Показано перспективність використання нейронних мереж для аналізу фіксованих фрагментів голосового сигналу. Встановлено необхідність адаптації виду і параметрів нейромережевої моделі до умов задачі розпізнавання емоцій за голосом. В результаті проведених досліджень визначено, що в задачі розпізнавання емоцій диктора за голосовими фрагментами фіксованої тривалості доцільно використовувати двошаровий персептрон, вхідні параметри якого асоціюються з мел-кепстральними коефіцієнтами, що характеризують кожен з квазістаціонарних фрагментів голосового сигналу, а вихідні параметри відповідають емоціям диктора, що мають бути розпізнані. Доцільність використання двошарового персептрону підтверджена за допомогою комп'ютерних експериментів. Визначено, що напрями подальших досліджень пов'язані з визначенням кількості мел-кепстральних коефіцієнтів, що є достатньою для опису одного квазістаціонарного фрагменту, і адаптацією параметрів двошарового персептрону до умов розпізнавання під впливом різмонаманітних перешкод.

Разработаны средства распознавания эмоционального состояния диктора. Показана перспективность использования нейронных сетей для анализа фиксированных фрагментов голосового сигнала. Установлена необходимость адаптации вида и параметров нейросетевой модели к условиям задачи распознавания эмоций по голосу. В результате проведенных исследований определено, что в задаче распознавания эмоций диктора по голосовым фрагментам фиксированной продолжительности целесообразно использовать двухслойный персептрон, входные параметры которого ассоциируются с мел-кепстральными коэффициентами, характеризующими каждый из квазистационарных фрагментов анализируемого голосового сигнала, а выходные параметры соответствуют распознаваемым эмоциям диктора. Целесообразность использования двухслойного персептрона подтверждена с помощью компьютерных экспериментов. Определено, что направления дальнейших исследований связаны с определением количества мел-кепстральных коэффициентов, которое является достаточным для описания одного квазистационарного фрагмента, и адаптацией параметров двухслойного персептрона к условиям распознавания при воздействии помех различного вида.

The article is devoted to the development of recognition tools for the emotional state of the speaker. The prospects of using neural networks for the analysis of fixed fragments of a voice signal is shown. The necessity of adapting the appearance and parameters of the neural network model to the conditions of the task of recognizing emotions by voice is established. As a result of the studies, it was determined that in the task of recognizing the speaker’s emotions by voice fragments of a fixed duration, it is advisable to use a two-layer perceptron, the input parameters of which are associated with mel-cepstral coefficients characterizing each of the quasi-stationary fragments of the analysed voice signal, and the output parameters correspond to the recognizable emotions of the speaker. The feasibility of using a two-layer perceptron is confirmed by computer experiments. It was determined that the directions of further research are related to determining the number of mel-cepstral coefficients, which is sufficient to describe a single quasistationary fragment, and adapting the parameters of the two-layer perceptron to recognition conditions under the influence of various kinds of interference.


