НЕЙРОМЕРЕЖЕВА МОДЕЛЬ РОЗПІЗНАВАННЯ ЕМОЦІЙ ЗА ГОЛОСОМ

Заголовок (російською): 
НЕЙРОСЕТЕВАЯ МОДЕЛЬ РАСПОЗНАВАНИЯ ЭМОЦИЙ ПО ГОЛОСУ
Заголовок (англійською): 
NEURAL NETWORK VOICE RECOGNITION MODEL
Автор(и): 
Терейковская Л.А.
Автор(и) (англ): 
Tereikovska Liudmyla
Ключові слова (укр): 
емоції; розпізнавання емоцій; голосовий сигнал; нейромережева модель; мел-кепстральні коефіцієнти; квазістаціонарний фрагмент
Ключові слова (рус): 
эмоции; распознавание эмоций; голосовой сигнал; нейросетевая модель; мел-кепстральные коэффициенты; квазистационарный фрагмент
Ключові слова (англ): 
emotions; recognition of emotions; voice signal; neural network model; mel-cepstral coefficients; quasistationary fragment
Анотація (укр): 
Розроблено засоби розпізнавання емоційного стану диктора. Показано перспективність використання нейронних мереж для аналізу фіксованих фрагментів голосового сигналу. Встановлено необхідність адаптації виду і параметрів нейромережевої моделі до умов задачі розпізнавання емоцій за голосом. В результаті проведених досліджень визначено, що в задачі розпізнавання емоцій диктора за голосовими фрагментами фіксованої тривалості доцільно використовувати двошаровий персептрон, вхідні параметри якого асоціюються з мел-кепстральними коефіцієнтами, що характеризують кожен з квазістаціонарних фрагментів голосового сигналу, а вихідні параметри відповідають емоціям диктора, що мають бути розпізнані. Доцільність використання двошарового персептрону підтверджена за допомогою комп'ютерних експериментів. Визначено, що напрями подальших досліджень пов'язані з визначенням кількості мел-кепстральних коефіцієнтів, що є достатньою для опису одного квазістаціонарного фрагменту, і адаптацією параметрів двошарового персептрону до умов розпізнавання під впливом різмонаманітних перешкод.
Анотація (рус): 
Разработаны средства распознавания эмоционального состояния диктора. Показана перспективность использования нейронных сетей для анализа фиксированных фрагментов голосового сигнала. Установлена необходимость адаптации вида и параметров нейросетевой модели к условиям задачи распознавания эмоций по голосу. В результате проведенных исследований определено, что в задаче распознавания эмоций диктора по голосовым фрагментам фиксированной продолжительности целесообразно использовать двухслойный персептрон, входные параметры которого ассоциируются с мел-кепстральными коэффициентами, характеризующими каждый из квазистационарных фрагментов анализируемого голосового сигнала, а выходные параметры соответствуют распознаваемым эмоциям диктора. Целесообразность использования двухслойного персептрона подтверждена с помощью компьютерных экспериментов. Определено, что направления дальнейших исследований связаны с определением количества мел-кепстральных коэффициентов, которое является достаточным для описания одного квазистационарного фрагмента, и адаптацией параметров двухслойного персептрона к условиям распознавания при воздействии помех различного вида.
Анотація (англ): 
The article is devoted to the development of recognition tools for the emotional state of the speaker. The prospects of using neural networks for the analysis of fixed fragments of a voice signal is shown. The necessity of adapting the appearance and parameters of the neural network model to the conditions of the task of recognizing emotions by voice is established. As a result of the studies, it was determined that in the task of recognizing the speaker’s emotions by voice fragments of a fixed duration, it is advisable to use a two-layer perceptron, the input parameters of which are associated with mel-cepstral coefficients characterizing each of the quasi-stationary fragments of the analysed voice signal, and the output parameters correspond to the recognizable emotions of the speaker. The feasibility of using a two-layer perceptron is confirmed by computer experiments. It was determined that the directions of further research are related to determining the number of mel-cepstral coefficients, which is sufficient to describe a single quasistationary fragment, and adapting the parameters of the two-layer perceptron to recognition conditions under the influence of various kinds of interference.
Публікатор: 
Київський національний університет будівництва і архітектури
Назва журналу, номер, рік випуску (укр): 
Управління розвитком складних систем, номер 41, 2020
Назва журналу, номер, рік випуску (рус): 
Управление развитием сложных систем, номер 41, 2020
Назва журналу, номер, рік випуску (англ): 
Management of Development of Complex Systems, Number 41, 2020
Мова статті: 
Русский
Формат документа: 
application/pdf
Документ: 
Дата публікації: 
10 Февраль 2020
Номер збірника: 
Розділ: 
ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ ПРОЕКТУВАННЯ
Університет автора: 
Киевский национальный университет строительства и архитектуры, Киев
Литература: 
  1. Aitchanov B., Korchenko A., Tereykovskiy I., Bapiyev I. Perspectives for using classical neural network models and methods of  counteracting attacks  on network resources of  information systems. News of the national academy of sciences of the republic of Kazakhstan series of geology and technical sciences. 2017. Vol. 5, No 425. Pp. 202-212.  
  2. Ajinkya N., Nagaraj V., Dharwadkar P. A Speaker Recognition System Using Gaussian Mixture Model, EM Algorithm and K-Means Clustering. International Journal of Modern Education and Computer Science. 2018. Vol.10. No.11. Pp. 19-28.
  3. Akhmetov B., Tereykovsky I., Doszhanova A., Tereykovskaya L. Determination of input parameters of the neural network model, intended for phoneme recognition of a voice signal in the systems of distance learning.  International Journal of Electronics and Telecommunications. 2018. Vol. 64, No 4. Pp. 425-432.
  4. Altincay H., Demirekler M. Speaker identification by combining multiple classifiers using Dempster–Shafer theory of evidence. Speech Communication. 2003. Vol. 41, No 4. Pp.531–547.
  5. Ehsan V., Xin L., Erik M., Ignacio L., Javier G. Deep neural networks for small footprint text-dependent speaker verification. In Acoustics, Speech and Signal Processing. 2014. IEEE International Conference. Pp. 4052–4056.
  6. Geeta N., Soni M. A New Design Approach for Speaker Recognition Using MFCC and VAD. IJIGSP. 2013. Vol. 5.
    No 9. Pp.43 – 49.
  7. He L. Stress and Emotion Recognition in Natural Speech in the Work and Family Environments: Ph.D. Dissertation.
    – RMIT University, 2010. 197 p.
  8. Hu, Z., Tereykovskiy, I., Zorin, Y., Tereykovska, L., Zhibek, A. Optimization of convolutional neural network structure for biometric authentication by face geometry. Advances in Intelligent Systems and Computing. 2018. Vol. 754. Pp 567-577.
  9. Ing-Jr D., Chih-Ta Y., Yen-Ming H. Developments of Machine Learning Schemes for Dynamic Time-Wrapping-Based Speech Recognition. Mathematical Problems in Engineering. 2013. Pp. 56-68.
  10. Jung N, Wranke C, Hamburger K, Knauff M. How emotions affect logical reasoning: evidence from experiments with mood-manipulated participants, spider phobics, and people with exam anxiety. Front Psychol. 2014. 5:570.
  11. Karam Z., Campbell W. A new kernel for SVM MLLR based speaker recognition. In: Proc. Interspeech 2007 (ICSLP), Antwerp, Belgium, August 2007. Pp. 290–293.
  12. Konar A., Chakraborty A. Emotion recognition: a pattern analysis approach. Wiley. 2015. P. 583.
  13. Littlewor, G., Whitehill J., Wu T., Fasel I., Frank M., Movellan J., Bartlett M. The Computer Expression Recognition Toolbox (CERT). Proceedings of the IEEE International Conference on Automatic Face and Gesture Recognition. 2011, 298 305.
  14. Satyanand S., Abhay K., David R. Efficient Modelling Technique based Speaker Recognition under Limited Speech Data. International Journal of Image, Graphics and Signal Processing. 2016. Vol.8. No.11. Pp.41-48.
  15. Tereikovska L., Tereikovskyi I., Mussiraliyeva S., Akhmed G., Beketova A., Sambetbayeva A. Recognition of emotions by facial Geometry using a capsule neural network.  International Journal of Civil Engineering and Technology. 2019 Vol. 10. Issue 04. Pp. 270-279.
  16. Russell J., Bachorowski J., Fernandez-Dols J. Facial and vocal expressions of emotion. Annu Rev Psychol. 2003. Vol. 54. Pp. 329-339.
  17. Um E., Plass J., Hayward E., Homer B. Emotional design in multimedia learning. Educ. Psychol. J. 2012. Pp. 485–498.
  18. Zhang W., Deng Y., He L., Liu J. Variant Time-Frequency Cepstral Features for Speaker Recognition. Interspeech. 2010. Pp. 2122-2125.