Заголовок (англійською): 
Combined methods for identifying incomplete duplicates in scientific publications
Лізунов П. П.
Білощицький А. О.
Кучанський О. Ю.
Андрашко Ю. В.
Автор(и) (англ): 
Lizunov Petro
Biloshchytskyi Andrii
Kuchansky Alexander
Andrashko Yurii
Ключові слова (укр): 
послідовності збігів; неповні дублікати; плагіат; наукове дослідження; наукова публікація
Ключові слова (англ): 
sequence of matches; incomplete duplicates; plagiarism; scientific research; scientific publication
Анотація (укр): 
Розглянуто розпізнавання неповних дублікатів зображень та таблиць. З метою розпізнавання графічних даних (для класифікації та стиснення зображень) використовується вейвлет-аналіз з набором класичних характеристичних функцій: вейвлети Морле і Хаара, вейвлет мексиканський капелюх тощо. Застосовуються також особливі види фільтрів, що будуються на основі так званих риджлет-, курвлет- та бимлет-перетворень. Розглянуто основні класичні методи кластеризації колекції зображень, що можуть бути використані для пошуку неповних дублікатів у графічних даних електронних документів. Проаналізовано метод Гарріса, який дає змогу визначати опорні точки зображень за рахунок вимірювання інтенсивності яскравості зображення. Також проаналізовано технологію SIFT (масштабно-інваріантне перетворення ознак), яка є потужним засобом формування системи інваріантних структурних ознак, розглянуто ще один клас методів, які вирізняються простотою реалізації та застосування для виявлення неповних дублікатів зображень – хеш-методи. Описано, що для RGB-зображення існує три таких сигнали: яскравість у каналах Red, Green та Blue. В обробці сигналів і суміжних галузей перетворення Фур'є зазвичай розглядається декомпозиція сигналу на частоти та амплітуди. Розглянуто метод виявлення контекстно-залежних значень та індексації текстових даних, який допомагає знаходити неповні дублікати в таблицях з урахуванням текстового і числового представлення даних. Аналогічно за описаним методом можна провести індексацію даних числового і текстового типів, якщо вони розміщуються не в таблиці, а всередині контенту електронного документа. Результати дослідження використовуються в комплексі із системою виявлення неповних дублікатів у наукових документах, зокрема дисертаціях на здобуття наукового ступеня.
Анотація (англ): 
Recognition of incomplete duplicates of images and tables is considered. In order to recognize graphical data (for image classification and compression), wavelet analysis is used with a set of classic characteristic functions: Morlet and Haar wavelets, Mexican hat wavelet, etc. Special types of filters are also used, which are based on the so-called ridgelet, curvlet and beamlet transformations. The main classical methods of image collection clustering that can be used to find incomplete duplicates in the graphic data of electronic documents are considered. The Harris method is analyzed, which allows to determine the reference points of the images by measuring the intensity of the brightness of the image. SIFT (scale-invariant feature transformation) technology, which is a powerful tool for forming a system of invariant structural features, is also analyzed, another class of methods is considered, which are easy to implement and use to detect incomplete duplicate images – hash methods. It is described that there are three such signals for RGB images: brightness in Red, Green and Blue channels. In signal processing and related branches of Fourier transform, decomposition of the signal into frequencies and amplitudes is usually considered. A method for identifying context-sensitive values and indexing textual data is considered, which helps to find incomplete duplicates in tables based on textual and numerical representation of data. Similarly, the described method can be used to index data of numerical and text types, if they are not placed in a table, but inside the content of an electronic document. The results of the research are used in combination with the system of detection of incomplete duplicates in scientific documents, in particular dissertations for the degree.
Київський національний університет будівництва і архітектури
Назва журналу, номер, рік випуску (укр): 
Управління розвитком складних систем, номер 48, 2021
Назва журналу, номер, рік випуску (рус): 
Управление развитием сложных систем, номер 48, 2021
Назва журналу, номер, рік випуску (англ): 
Management of Development of Complex Systems, Number 48, 2021
Мова статті: 
Формат документа: 
Дата публікації: 
02 Ноябрь 2021
Номер збірника: 
Університет автора: 
Київський національний університет будівництва і архітектури, Київ; Astana IT University, Нур-Султан; Київський національний університет імені Тараса Шевченка, Київ; ДВНЗ «Ужгородський національний університет», Ужгород
