Розглянуто особливості ідентифікації авторів та їх публікацій з наукометричних баз даних на основі латентно семантичного аналізу назв статей. Показано, що в слабоструктурованих наукових текстах назви статей одного автора утворюють загальну область термів, що дозволяє ідентифікувати авторів статей.
Рассмотрены особенности идентификации авторов и их публикаций из наукометрических баз данных на основе латентно семантического анализа названий статей. Показано, что в слабоструктурированных научных текстах названия статей одного автора образуют общую область термов, что позволяет идентифицировать авторов статей.
Article covers features for authors and their publications identification in scientometric databases based on latent semantic analysis of article titles. It is shown that in poorly structured scientific texts titles of articles per author form a common area of terms that allows us to identify the authors of articles. Latent semantic analysis (LSA) uses a mathematical technique called singular value decomposition (SVD) to identify patterns in the relationships between the terms and concepts contained in an unstructured collection of text. It is based on the principle that words that are used in the same contexts tend to have similar meanings. A key feature of LSA is its ability to extract the conceptual content of a body of text by establishing associations between those terms that occur in similar contexts. LSA overcomes the following problems: multiple words that have similar meanings (synonymy) and words that have more than one meaning (polysemy). Another benefit of LSA is that it uses a strictly mathematical approach, so is inherently independent of language.
