Аннотації

Автор(и):
Лізунов П. П., Білощицький А. О., Кучанський О. Ю., Андрашко Ю. В., Лященко Т. О.
Автор(и) (англ)
Lizunov Petro, Biloshchytskyi Andrii, Kuchansky Alexander, Andrashko Yurii, Liashchenko Tamara
Дата публікації:

22.09.2021

Анотація (укр):

Описано можливості застосування латентного семантичного аналізу для задачі виявлення повноти висвітлення результатів дисертаційних досліджень здобувачами наукових ступенів. Для досягнення мети виконано такі завдання: зроблено огляд ймовірнісної тематичної моделі представлення текстових документів, зокрема наукових документів з використанням специфічних предметних термінів, які представляються n-грамам; наведено формальне описання ймовірнісної тематичної моделі для задачі встановлення повноти висвітлення матеріалів дисертаційних досліджень автора в його наукових статтях. Особливістю ймовірнісної тематичної моделі для задачі встановлення повноти висвітлення матеріалів дисертаційних досліджень автора в його наукових публікаціях є використання навчання та спеціального регуляризатора. Результатом моделі є матриця належності тем, які визначаються сегментами авторефератів дисертації автора до документів, які визначаються публікаціями автора. Застосування цієї моделі до пропонованої задачі ще не було описано. Розглянута в роботі задача спирається на задачу максимізації функції правдоподібності, яка є некоректно поставленою. Для зведення задачі до коректно поставленої використовуються тільки відповідні регуляризатори. Інші методи зведення задач до коректних не розглядалися. Обмеженням дослідження є проблема канонізації текстів різними мовами. У пропонованому дослідженні використовується текстова інформація українською мовою. У подальшому дослідженні буде запропоновано зведення текстів до однієї мовної бази, оскільки інструменти канонізації текстів англійської мови мають більш широкі можливості, зокрема для наукових публікацій. Також обмеженням є складність отримання повних текстів дисертацій для повноцінної верифікації моделі. Результати дослідження використовуються в комплексі з системою виявлення неповних дублікатів у наукових документах, зокрема дисертаціях на здобуття наукового ступеня.

Анотація (рус):

Анотація (англ):

The paper describes the possibilities of applying latent semantic analysis to identify the completeness of the coverage of the results of dissertation research by applicants for scientific degrees. To achieve this goal, the following tasks were set and achieved: a review of the probabilistic thematic model of presentation of text documents, in particular, scientific papers using specific subject terms, which are represented by n-grams; a formal description of the probabilistic thematic model for the problem of establishing the completeness of the coverage of the author's dissertation research materials in his scientific articles is given. A feature of the probabilistic thematic model for the problem of establishing the completeness of the coverage of the author's dissertation research materials in his scientific publications is training and a special regularizer. The result of the model is a matrix of belonging of the topics, which are determined by the segments of the author's dissertation abstracts to the documents, which are determined by the author's publications. The application of this model to this problem has not yet been described. The problem considered in the paper is based on the issue of maximizing the likelihood function, which is incorrectly posed. Only the appropriate regularizers are used to reduce the task to the correct one. Other methods of reducing tasks to the correct ones were not considered. A limitation of the study is the problem of the canonization of texts in different languages. This study uses textual information in the Ukrainian language. In further research, the reduction of texts to one language base will be offered. In particular, because the tools of canonization of English texts have more opportunities, particularly for scientific publications. Also, a limitation is the difficulty of obtaining full texts of dissertations for complete verification of the model. The research results are combined with the system of detection of incomplete duplicates in scientific documents, particularly dissertations for the degree.

Література:

  1. Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Andrashko, Yu., Biloshchytska, S. (2020). The use of probabilistic latent semantic analysis to identify scientific subject spaces and to evaluate the completeness of covering the results of dissertation studies. Eastern-European Journal of Enterprise Technologies, 4/4 (106), 14–20.
  2. Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Andrashko, Yu., Biloshchytska, S. (2019). Improvement of the method for scientific publications clustering based on n-gram analysis and fuzzy method for selecting research partners. Eastern-European Journal of Enterprise Technologies, 4/4 (100), 6–14.
  3. Dumais, S. T. (2005). Latent Semantic Analysis. Annual Review of Information Science and Technology, 38, 188–230. doi: https://doi.org/10.1002/aris.1440380105.
  4. Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., Harshman, R. (1990). Indexing by Latent Semantic Analysis. JASIS, 41, 391–407.
  5. Hofmann, T. (1999). Probabilistic Latent Semantic Indexing. In Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 289–296. arXiv:1301.6705
  6. Dai, A. M., Olah, C., Le, Q. V. (2015). Document embedding with paragraph vectors. NIPS Deep Learning Workshop. arXiv:1507.07998v1
  7. Rosen-Zvi, M., Gri ths, T., Steyvers, M., Smyth, P. (2004). The author-topiс model for authors and doсuments. Proсeedings of the 20th сonferenсe on Unсertainty in artiсial intelligenсe, 487–494.
  8. Pagliardini, M., Gupta, P., Jaggi, M. (2018).  Unsupervised Learning of Sentence Embeddings using Compositional n-Gram Features. NAACL 2018 - Conference of the North American Chapter of the Association for Computational Linguistics, 528–540. doi: https://doi.org/10.18653/v1/N18-1049
  9. Lifchitz, A., Jhean-Larose, S., Denhiere, G. (2009). Effect of tuned parameters on an LSA multiple choice questions answering model. Behavior Research Methods, 41 (4), 1201–1209. doi: https://doi.org/10.3758/BRM.41.4.1201. PMID 19897829.
  10. Galvez, R. H., Gravano, A. (2017). Assessing the usefulness of online message board mining in automatic stock prediction systems. Journal of Computational Science, 19, 1877–7503. doi: https://doi.org/10.1016/j.jocs.2017.01.001.
  11. Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Biloshchytska, S., Chala, L. (2016). Detection of near duplicates in tables based on the locality-sensitive hashing method and the nearest neighbor method. Eastern-European Journal of Enterprise Technologies, 6(4(84)), 4–10. doi: https://doi.org/10.15587/1729-4061.2016.86243
  12. Biloshchytskyi A., Kuchansky A., Biloshchytska S., Dubnytska A. (2017). Conceptual Model of Automatic System of Near Duplicates Detection on Electronic Documents. IEEE “The Experience of Designing and Applications of CAD Systems in Microelectron.” (CADSM), P. 381-384.
  13. Rossi, R. J. (2018). Mathematical Statistics: An Introduction to Likelihood Based Inference. New York: John Wiley & Sons.
  14. Tikhonov, A., Arsenin, V. (1986). Methods for solving ill-posed problems.  M: Nauka.
  15. Blei, D. M., Ng, A. Y., Jordan, M. I. (2003). Latent Dirichlet allocation.  Journal of Machine Learning Research, 3, 993–1022.
  16. Dietz, L., Bickel, S., Scheffer, T. (2007). Unsupervised prediction of citation influences. In Proceedings of the 24th international conference on Machine learning. ICML '07. New York, NY, USA: ACM, 233–240.
  17. BigARTM. (2015). Retrieved from https://bigartm.readthedocs.io/en/stable/intro.html
  18. Vorontsov, K. V. (2013). Probabilistic topic modeling. Retrieved from http://www.machinelearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf
  19. Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Andrashko, Y., Biloshchytska, S. Serbin, O. (2021). Development of the combined method of identification of near duplicates in electronic scientific works. Eastern-European Journal of Enterprise Technologies, 4(4(112), 57–63. https://doi.org/10.15587/1729-4061.2021.238318.