Описано можливості застосування латентного семантичного аналізу для задачі виявлення повноти висвітлення результатів дисертаційних досліджень здобувачами наукових ступенів. Для досягнення мети виконано такі завдання: зроблено огляд ймовірнісної тематичної моделі представлення текстових документів, зокрема наукових документів з використанням специфічних предметних термінів, які представляються n-грамам; наведено формальне описання ймовірнісної тематичної моделі для задачі встановлення повноти висвітлення матеріалів дисертаційних досліджень автора в його наукових статтях. Особливістю ймовірнісної тематичної моделі для задачі встановлення повноти висвітлення матеріалів дисертаційних досліджень автора в його наукових публікаціях є використання навчання та спеціального регуляризатора. Результатом моделі є матриця належності тем, які визначаються сегментами авторефератів дисертації автора до документів, які визначаються публікаціями автора. Застосування цієї моделі до пропонованої задачі ще не було описано. Розглянута в роботі задача спирається на задачу максимізації функції правдоподібності, яка є некоректно поставленою. Для зведення задачі до коректно поставленої використовуються тільки відповідні регуляризатори. Інші методи зведення задач до коректних не розглядалися. Обмеженням дослідження є проблема канонізації текстів різними мовами. У пропонованому дослідженні використовується текстова інформація українською мовою. У подальшому дослідженні буде запропоновано зведення текстів до однієї мовної бази, оскільки інструменти канонізації текстів англійської мови мають більш широкі можливості, зокрема для наукових публікацій. Також обмеженням є складність отримання повних текстів дисертацій для повноцінної верифікації моделі. Результати дослідження використовуються в комплексі з системою виявлення неповних дублікатів у наукових документах, зокрема дисертаціях на здобуття наукового ступеня.
The paper describes the possibilities of applying latent semantic analysis to identify the completeness of the coverage of the results of dissertation research by applicants for scientific degrees. To achieve this goal, the following tasks were set and achieved: a review of the probabilistic thematic model of presentation of text documents, in particular, scientific papers using specific subject terms, which are represented by n-grams; a formal description of the probabilistic thematic model for the problem of establishing the completeness of the coverage of the author's dissertation research materials in his scientific articles is given. A feature of the probabilistic thematic model for the problem of establishing the completeness of the coverage of the author's dissertation research materials in his scientific publications is training and a special regularizer. The result of the model is a matrix of belonging of the topics, which are determined by the segments of the author's dissertation abstracts to the documents, which are determined by the author's publications. The application of this model to this problem has not yet been described. The problem considered in the paper is based on the issue of maximizing the likelihood function, which is incorrectly posed. Only the appropriate regularizers are used to reduce the task to the correct one. Other methods of reducing tasks to the correct ones were not considered. A limitation of the study is the problem of the canonization of texts in different languages. This study uses textual information in the Ukrainian language. In further research, the reduction of texts to one language base will be offered. In particular, because the tools of canonization of English texts have more opportunities, particularly for scientific publications. Also, a limitation is the difficulty of obtaining full texts of dissertations for complete verification of the model. The research results are combined with the system of detection of incomplete duplicates in scientific documents, particularly dissertations for the degree.
