КОМБІНОВАНІ МЕТОДИ ІДЕНТИФІКАЦІЇ НЕПОВНИХ ДУБЛІКАТІВ У НАУКОВИХ ПУБЛІКАЦІЯХ

Заголовок (англійською): 
Combined methods for identifying incomplete duplicates in scientific publications
Автор(и): 
Лізунов П. П.
Білощицький А. О.
Кучанський О. Ю.
Андрашко Ю. В.
Автор(и) (англ): 
Lizunov Petro
Biloshchytskyi Andrii
Kuchansky Alexander
Andrashko Yurii
Ключові слова (укр): 
послідовності збігів; неповні дублікати; плагіат; наукове дослідження; наукова публікація
Ключові слова (англ): 
sequence of matches; incomplete duplicates; plagiarism; scientific research; scientific publication
Анотація (укр): 
Розглянуто розпізнавання неповних дублікатів зображень та таблиць. З метою розпізнавання графічних даних (для класифікації та стиснення зображень) використовується вейвлет-аналіз з набором класичних характеристичних функцій: вейвлети Морле і Хаара, вейвлет мексиканський капелюх тощо. Застосовуються також особливі види фільтрів, що будуються на основі так званих риджлет-, курвлет- та бимлет-перетворень. Розглянуто основні класичні методи кластеризації колекції зображень, що можуть бути використані для пошуку неповних дублікатів у графічних даних електронних документів. Проаналізовано метод Гарріса, який дає змогу визначати опорні точки зображень за рахунок вимірювання інтенсивності яскравості зображення. Також проаналізовано технологію SIFT (масштабно-інваріантне перетворення ознак), яка є потужним засобом формування системи інваріантних структурних ознак, розглянуто ще один клас методів, які вирізняються простотою реалізації та застосування для виявлення неповних дублікатів зображень – хеш-методи. Описано, що для RGB-зображення існує три таких сигнали: яскравість у каналах Red, Green та Blue. В обробці сигналів і суміжних галузей перетворення Фур'є зазвичай розглядається декомпозиція сигналу на частоти та амплітуди. Розглянуто метод виявлення контекстно-залежних значень та індексації текстових даних, який допомагає знаходити неповні дублікати в таблицях з урахуванням текстового і числового представлення даних. Аналогічно за описаним методом можна провести індексацію даних числового і текстового типів, якщо вони розміщуються не в таблиці, а всередині контенту електронного документа. Результати дослідження використовуються в комплексі із системою виявлення неповних дублікатів у наукових документах, зокрема дисертаціях на здобуття наукового ступеня.
Анотація (англ): 
Recognition of incomplete duplicates of images and tables is considered. In order to recognize graphical data (for image classification and compression), wavelet analysis is used with a set of classic characteristic functions: Morlet and Haar wavelets, Mexican hat wavelet, etc. Special types of filters are also used, which are based on the so-called ridgelet, curvlet and beamlet transformations. The main classical methods of image collection clustering that can be used to find incomplete duplicates in the graphic data of electronic documents are considered. The Harris method is analyzed, which allows to determine the reference points of the images by measuring the intensity of the brightness of the image. SIFT (scale-invariant feature transformation) technology, which is a powerful tool for forming a system of invariant structural features, is also analyzed, another class of methods is considered, which are easy to implement and use to detect incomplete duplicate images – hash methods. It is described that there are three such signals for RGB images: brightness in Red, Green and Blue channels. In signal processing and related branches of Fourier transform, decomposition of the signal into frequencies and amplitudes is usually considered. A method for identifying context-sensitive values and indexing textual data is considered, which helps to find incomplete duplicates in tables based on textual and numerical representation of data. Similarly, the described method can be used to index data of numerical and text types, if they are not placed in a table, but inside the content of an electronic document. The results of the research are used in combination with the system of detection of incomplete duplicates in scientific documents, in particular dissertations for the degree.
Публікатор: 
Київський національний університет будівництва і архітектури
Назва журналу, номер, рік випуску (укр): 
Управління розвитком складних систем, номер 48, 2021
Назва журналу, номер, рік випуску (рус): 
Управление развитием сложных систем, номер 48, 2021
Назва журналу, номер, рік випуску (англ): 
Management of Development of Complex Systems, Number 48, 2021
Мова статті: 
Українська
Формат документа: 
application/pdf
Документ: 
Дата публікації: 
02 Ноябрь 2021
Номер збірника: 
Розділ: 
ІНФОРМАТИЗАЦІЯ ВИЩОЇ ОСВІТИ
Університет автора: 
Київський національний університет будівництва і архітектури, Київ; Astana IT University, Нур-Султан; Київський національний університет імені Тараса Шевченка, Київ; ДВНЗ «Ужгородський національний університет», Ужгород
Литература: 
  1. Hawkins J. On Intelligence [Text] / Jeff Hawkins. Times Books, 2004. 272 p.
  2. Ту Дж., Гонсалес Р. Принципы распознавания образов. Москва: Мир, 1978. 411 с.
  3. Яне Б. Цифровая обработка зображений. Москва: Техносфера, 2007. 587 с.
  4. Гонсалес Г., Вудс Г. Цифровая обработка зображений. Москва: Техносфера, 2005. 1072 с.
  5. Павлидис Т. Алгоритмы машинной графики и обработки зображений. Москва: Радио и связь, 1986. 400 с.
  6. Сироджа И. Б. Квантовые модели и методы искусственного интеллекта для принятия решений и управления. Київ: Наукова думка, 2002. 420 с.
  7. Фу К., Гонсалес, К. Ли. Робототехника. [пер. с англ. А. А. Сорокина, А. В. Градецкого, М. Ю. Рачкова; под. ред. В. Г. Градецкого]. Москва: Мир. 1989. 624 с.
  8. Пименов В. Ю. Простые методы поиска изображений по содержанию. Труды РОМИП, 2010. URL: http://romip.ru/ru/2010/.
  9. Mojsilović R., Kovačević J., Hu J., Safranek R. J., Ganapathy S. K. Matching and retrieval based on the vocabulary and grammar of color patterns. IEEE Trans. Image Processing, 2000, volume 9, pp. 38-54.
  10. Tamura H., Mori S., Yamawaki T. Texture features corresponding to visual perception. IEEE Transactions on System, Man and Cybernatic. 1978, volume 8(6), pp. 460–473.
  11. Zhang D., Lu G. Content-Based Shape Retrieval Using Different Shape Descriptors: A Comparative Study. In IEEE International Conference on Multimedia and Expo, 2001, pp. 289–293.
  12. Quack T., Monich U., Thiele L., Manjunath B. A System for Largescale, Contentbased Web Image Retrieval. MM’04, October 1016, 2004, New York, USA. P. 120–123.
  13. Волосных Д. Ф Использование визуальных особенностей восприятия компонент цветовой модели HSI при поиске изображений по содержанию. Труды РОМИ 2010. URL: http://romip.ru/ru/2010/.
  14. Васильева Н., Гладышева Ю. Взвешенный CombMNZ для комбинирования результатов поиска изображений по цветовым признакам. Труды РОМИП 2010. URL: http://romip.ru/ru/2010/
  15. Мельниченко А., Гончаров А. ЛММИИ на РОМИП-2009: Методы поиска изображений по визуальному подобию и детекции нечетких дубликатов изображений. Труды РОМИП  2009. URL: http://romip.ru/ru/2009/.
  16. Стадник А. С. Анализ кадров видеоряда и вычисление продолжительности сцены используя алгоритм перцептивного хэша Информатика и компьютерные технологии-2011. URL: http://ea.donntu.edu.ua:8080/jspui/bitstream/ 123456789/3955/1/4_%D0%A1%D1%82%D0%B0%D0%B4%D0%BD%D0%B8%D0%BA.pdf
  17. Чалая Л. Э., Попаденко П. Ю. Поиск неполных дубликатов в системах анализа цифровых зображений. Вісник Кременчуцького національного університету імені Михайла Остроградського. 2014. Вип. 5. С. 42 – 47.
  18. Lizunov P., Biloshchytskyi A., Kuchansky A., Biloshchytska S., Chala L. Detection of near duplicates in tables based on the locality-sensitive hashing method and the nearest neighbor method. Eastern-European Journal of Enterprise Technologies. 2016, Vol. 6, Issue 4 (84), P. 4–10.
References: 
  1. Hawkins, J. (2004). On Intelligence. Times Books, 272.
  2. Tu, Dzh., Gonsales, R. (1978). Principles of pattern recognition. Moscow: Mir, 411.
  3. Yane, B. (2007). Digital image processing. Moscow: Technosphere, 587.
  4. Gonsales, G., Vuds, G. (2005). Digital image processing. Moscow: Technosphere, 1072.
  5. Pavlidis, T. (1986). Algorithms for computer graphics and image processing. Moscow: Radio and Communications, 400.
  6. Sirodzha, I. B. (2002). Quantum models and artificial intelligence methods for decision making and management. Kyiv: Scientific opinion, 420.
  7. Fu, K., Gonsales, K. Li. (1989). Robotics. [per. from English. A. A. Sorokin, A. V. Gradetsky, M. Yu. Rachkov; under. ed. V. G. Gradetsky]. Moscow: Mir, 624.
  8. Pimenov, V. Yu. (2010). Simple methods of image search by content. Proceedings of ROMIP. URL: http://romip.ru/ru/2010/.
  9. Mojsilović, R., Kovačević, J., Hu, J., Safranek, R. J., Ganapathy, S. K. (2000). Matching and retrieval based on the vocabulary and grammar of color patterns. IEEE Trans. Image Processing, 9, 38–54.
  10. Tamura, H., Mori, S., Yamawaki, T. (1978). Texture features corresponding to visual perception. IEEE Transactions on System, Man and Cybernatic, 8 (6), 460–473.
  11. Zhang, D., Lu, G. (2001). Content-Based Shape Retrieval Using Different Shape Descriptors: A Comparative Study. In IEEE International Conference on Multimedia and Expo, 289–293.
  12. Quack, T., Monich, U., Thiele, L., Manjunath, B. (2004). A System for Largescale, Contentbased Web Image Retrieval. MM’04, October 1016, 2004, New York, USA, 120–123.
  13. Volosnykh, D. F. (2010). Using the visual features of the perception of the components of the HSI color model when searching for images by content. Proceedings of ROMI. URL: http://romip.ru/ru/2010/.
  14. Vasil'eva, N., Gladysheva, Yu. (2010). Weighted CombMNZ for combining image search results by color features. Proceedings of ROMIP-2010. URL: http://romip.ru/ru/2010/
  15. Mel'nichenko, A. Goncharov, A. (2009). LMMII at ROMIP-2009: Methods for image search by visual similarity and detection of fuzzy image duplicates. Proceedings of ROMIP-2009. URL: http://romip.ru/ru/2009/.
  16. Stadnik, A. S. Video sequence frame analysis and scene duration calculation using perceptual hash algorithm Informatics and computer Technologies-2011. URL: http://ea.donntu.edu.ua:8080/jspui/bitstream/ 123456789/3955/1/4_%D0%A1%D1%82%D0%B0%D0%B4%D0%BD%D0%B8%D0%BA.pdf
  17. Chalaya, L. E., Popadenko, P. Yu. (2014). Search for incomplete duplicates in digital image analysis systems. Bulletin of Kremenchug National University named after Mykhailo Ostrogradsky, 5, 42–47.
  18. Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Biloshchytska, S., Chala, L. (2016). Detection of near duplicates in tables based on the locality-sensitive hashing method and the nearest neighbor method. Eastern-European Journal of Enterprise Technologies, 6, 4 (84), 4–10.