ВИЗНАЧЕННЯ СТИЛЬОВОЇ НАЛЕЖНОСТІ ТЕКСТУ ЗА ДОПОМОГОЮ ШТУЧНИХ НЕЙРОННИХ МЕРЕЖ

Заголовок (російською): 
ОПРЕДЕЛЕНИЕ СТИЛЕВОЙ ПРИНАДЛЕЖНОСТИ ТЕКСТА С ПОМОЩЬЮ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ
Заголовок (англійською): 
DETERMINING THE STYLISTIC AFFILIATION OF THE TEXT USING ARTIFICIAL NEURAL NETWORKS
Автор(и): 
Лупей М.І.
Автор(и) (англ): 
Lupei Maksym
Ключові слова (укр): 
стиль; класифікація; корпусна лінгвістика; штучні нейронні мережі; векторизація тексту
Ключові слова (рус): 
стиль; классификация; корпусная лингвистика; искусственные нейронные сети; векторизация текст
Ключові слова (англ): 
style; classification; corpus linguistics; artificial neural networks; vectorization of the text
Анотація (укр): 
Досліджено проблему розроблення ефективного способу визначення стильової належності текстів. Розглянуто такі стилі, як науковий, публіцистичний та офіційно-діловий. Для аналізу відібрані тексти одної тематики – про мову. Розглянуто різні поєднання методів векторизації та архітектур штучних нейронних мереж, які б забезпечили високий рівень розпізнаваності. Серед архітектур штучних нейронних мереж розглянуто: Support Vector Machines (SVM) (C-Support Vector Classification (SVC), Epsilon-Support Vector Regression (SVR)) та Multi Layer Perseptron (MLP). Серед методів векторизації розглянуто: HeshingVectorizer, CountVectorizer та TfidVectorizer. Проведені дослідження засвідчили, що всі розглядувані підходи найбільш ефективно розрізняють офіційно-ділові тексти, що пояснюється їх найбільшою стандартизованістю. Особливо ефективно розрізняються науковий та офіційно-діловий стилі. Найменшу точність розглядувані методи показують при визначенні стильової приналежності, коли одним зі стилів є публіцистичний. Найбільш ефективним підходом для визначення стильової приналежності виявилось поєднання методу векторизації tfidVectorizer та обох архітектур штучних нейронних мереж Support Vector Machines. На попередньому етапі для збільшення ефективності використовувався стемінг слів. У текстах, що містять не менше 500 символів, такий підхід допоміг забезпечити точність 94 – 98%, а час для навчання штучної нейронної мережі при цьому не перевищує одну секунду на комп’ютерах стандартної на цей час конфігурації. За допомогою бібліотеки Lime наведено візуалізацію дослідження роботи штучної нейронної мережі, що є надзвичайно важливим емпіричним матеріалом для фахівців-філологів для проведення подальшого лінгвістичного аналізу.
Анотація (рус): 
Исследована проблема разработки эффективного способа определения стилевой принадлежности текстов. Рассмотрены такие стили: научный, публицистический и официально-деловой. Для анализа отобраны тексты одной тематики – о языке. Рассмотрены различные сочетания методов векторизации и архитектур искусственных нейронных сетей, которые могут обеспечить высокий уровень узнаваемости. Среди архитектур искусственных нейронных сетей рассмотрены: Support Vector Machines (SVM) (C-Support Vector Classification (SVC), Epsilon-Support Vector Regression (SVR)) и Multi Layer Perseptron (MLP). Среди методов векторизации рассмотрены: HeshingVectorizer, CountVectorizer и TfidVectorizer. Проведенные исследования показали, что все рассматриваемые подходы наиболее эффективно различают официально-деловые тексты, что объясняется их большей стандартизированностью. Особенно эффективно различаются научный и официально-деловой стили. Наименьшую точность рассматриваемые методы показывают при определении стилевой принадлежности, когда одним из стилей является публицистический. Наиболее эффективным подходом для определения стилевой принадлежности оказалось сочетание метода векторизации tfidVectorizer и двух архитектур искусственных нейронных сетей Support Vector Machines. На предварительном этапе для повышения эффективности использовался стемминг слов. В текстах, содержащих не менее 500 символов, такой подход позволил обеспечить точность 94 – 98%, а время для обучения искусственной нейронной сети при этом не превышает одну секунду на компьютерах стандартной конфигурации. С помощью библиотеки Lime приведена визуализация исследования работы искусственной нейронной сети, что является чрезвычайно важным эмпирическим материалом для специалистов-филологов при проведении дальнейшего лингвистического анализа.
Анотація (англ): 
The research is about the problem of developing an effective way to determine the stylistic affiliation of texts. Styles such as scientific, journalistic and official-business are considered. Texts of one subject – about language – selected for the analysis. Different combinations of vectorization methods and architectures of artificial neural networks considered which would provide a high level of recognition. Among the architectures of artificial neural networks– Support Vector Machines (SVM) (C-Support Vector Classification (SVC), Epsilon-Support Vector Regression (SVR)) and Multi Layer Perseptron (MLP). Among the vectorization methods– HeshingVectorizer, CountVectorizer and TfidVectorizer. Studies have shown that all the approaches considered most effectively distinguish between official and business texts, due to their greatest standardization. Scientific and official business styles are especially effective. The considered methods show the least accuracy in determining the stylistic affiliation, when one of the styles is journalistic. The most effective approach to determining stylistic affiliation was the combination of the vectorization method and both architectures of artificial neural networks Support Vector Machines. In the previous stage, word stemming was increasing efficiency. In texts with at least 500 characters, this approach has ensured an accuracy of 94-98%, and the time for learning an artificial neural network does not exceed one second on computers of the standard configuration at this time. With the help of the Lime library, a visualization of the study of the operation of an artificial neural network presents, which is extremely important empirical material for philologists for further linguistic analysis.
Публікатор: 
Київський національний університет будівництва і архітектури
Назва журналу, номер, рік випуску (укр): 
Управління розвитком складних систем, номер 42, 2020
Назва журналу, номер, рік випуску (рус): 
Управление развитием сложных систем, номер 42, 2020
Назва журналу, номер, рік випуску (англ): 
Management of Development of Complex Systems, Number 42, 2020
Мова статті: 
Українська
Формат документа: 
application/pdf
Документ: 
Дата публікації: 
02 Апрель 2020
Номер збірника: 
Розділ: 
ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ УПРАВЛІННЯ
Університет автора: 
Ужгородський національний університет, Ужгород
Литература: 
  1. Єрмоленко, С.Я. Лінгвостилістика: основні поняття, напрями й методи дослідження. Українська лінгвостилістика ХХ – початку ХХІ ст.: система понять і бібліографічні джерела [уклад.: Бибик С.П., Єрмоленко С.Я., Коць Т.А. та ін.; за ред. д ра філол. наук, проф. С.Я. Єрмоленко]. – К.: Грамота, 2007.
  2. Дубовик, А.Р. Автоматическое определение стилистической принадлежности текстов по их статистическим параметрам. Компьютерная лингвистика и вычислительные онтологии 1 (2017): 29 – 45.
  3. Pedregosa F. et al. "Scikit-learn: Machine learning in Python." the Journal of machine Learning research 12 (2011): 2825 – 2830.
  4. Bodyanskiy, Y. “Computational Intelligence Techniques for Data Analysis” in Leipziger Informatik-Tage, 2005, pp. 15 – 36.
  5. Lupei, M., Mitsa, A., Repariuk, V., & Sharkan, V., (2020). Identification of authorship of Ukrainian-language texts of journalistic style using neural networks. Eastern-European Journal of Enterprise Technologies, 1 (2 (103)), 30 – 36. doi: https://doi.org/10.15587/1729-4061.2020.195041
  6. Bodyanskiy et al. “Deep 2D-Neural Network and its Fast Learning,” in Proceedings of the 2018 IEEE Second International Conference on Data Stream Mining & Processing, DSMP 2018. Lviv, Ukraine, 21 – 25 August 2018, pp. 519 – 523.
  7. Rashkevych, Y., Peleshko, D., and Pasyeka, M. “Optimization search process in database of learning system,” in Proceedings of the 2nd IEEE International Workshop on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications, IDAACS 2003. Lviv, Ukraine, 8 – 10 Sept. 2003, pp. 358 – 361.
References: 
  1. Ermolenko, S.Ya., (2007). Linguostilistic: main termins, directs and methods of investigation. Ukrainian linguostilistic ХХ – beginning of ХХІ century: systems of termins and bibliography. К.: Gramota.
  2. Dubivik, A.R., (2017). Avtimatic determination of stylistic belonging of text at their statistic parameters. Computer linguistique and calculation onthology, 1, 29 45.
  3. Pedregosa, F. et al. (2011). Scikit-learn: Machine learning in Python. Journal of machine Learning research, 12,
    2825 – 2830.
  4. Bodyanskiy, Y., (2005). Computational Intelligence Techniques for Data Analysis. Leipziger Informatik-Tage, 15 – 36.
  5. Lupei, M., Mitsa, A., Repariuk, V., & Sharkan, V., (2020). Identification of authorship of Ukrainian-language texts of journalistic style using neural networks. Eastern-European Journal of Enterprise Technologies, 1 (2 (103)), 30 – 36. doi: https://doi.org/10.15587/1729-4061.2020.195041
  6. Bodyanskiy, Y. et al. (2018). Deep 2D-Neural Network and its Fast Learning. Proceedings of the 2018 IEEE Second International Conference on Data Stream Mining & Processing, DSMP 2018. Lviv, Ukraine, 21 – 25 August 2018, pp. 519 – 523.
  7. Rashkevych, Y., Peleshko, D., and Pasyeka, M., (2003). Optimization search process in database of learning system. Proceedings of the 2nd IEEE International Workshop on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications, IDAACS 2003. Lviv, Ukraine, 8-10 Sept. 2003, pp. 358 – 361.