Перетворення файлів різних типів до єдиного формату

Автор(и): 
А.О. Білощицький
О.В. Діхтяренко
Т.О. Лященко
Автор(и) (англ): 
Biloshchytskyi, A.
Dikhtiarenko, O.
Liashchenko, T
Ключові слова (укр): 
розбір форматів файлу, перетворення файлів, конвертація, антиплагіат
Ключові слова (рус): 
: разбор форматов файла, преобразования файлов, конвертация, антиплагиат
Ключові слова (англ): 
Keywords: parsing file formats, file conversion, conversion, antiplagiat
Анотація (укр): 
Запропоновано спосіб модифікації текстових даних документа зі збереженням відповідності модифікованого документа оригінальному, а також можливість прямої обробки форматів MS Word, PDF та їх конвертація. Розглянуто три найпопулярніші формати збереження документів: DOC, DOCX і PDF, та можливі способи їх конвертації у базовий формат для подальшої роботи з вмістом.
Анотація (рус): 
Предложен способ модификации текстовых данных документа с сохранением соответствия модифицированного документа оригинальному, а также возможность прямой обработки форматов MS Word, PDF и их конвертация. Рассмотрены три самые популярные формата хранения документов: DOC, DOCX и PDF, и возможные способы их конвертации в базовый формат для дальнейшей работы с содержимым.
Анотація (англ): 
In this paper the method of modifying text data documents with matching modified the original document. As different formats are fundamentally different structure, the rational solution is to bring all formats to one standard for us form or format. It will not write tools to work with all types of files, and creates the opportunity to write tools to work with just one format converters and other formats to be chosen. This approach will allow for easy expansion in the future the number of formats supported, because adding support for new formats only need to write a converter. Also, the possibility of direct processing formats MS Word, PDF and convert. In the article the 3 most popular formats to save documents: DOC, DOCX and PDF, and their possible conversion into a basic format for further work with the content. A basic format of HTML, as supports saving and formatting all we need entities and has a simple structure that facilitates its handling. In order to process text data suggested build vocabulary index document that represents a table, the first column of which the position of words in the text, and the second - the actual words. This structure allows to process document Literal and apply to individual words any modification while retaining the possibility to compare the modified sample from the original.
Публікатор: 
Київський національний університет будівництва і архітектури
Назва журналу, номер, рік випуску (укр): 
Управління розвитком складних систем, номер 18, 2014
Назва журналу, номер, рік випуску (рус): 
Управление развитием сложных систем, номер 18, 2014
Назва журналу, номер, рік випуску (англ): 
Management of Development of Complex Systems, Number 18, 2014
Мова статті: 
Українська
Формат документа: 
application/pdf
Документ: 
Дата публікації: 
30 Май 2014
Номер збірника: 
Розділ: 
ІНФОРМАТИЗАЦІЯ ВИЩОЇ ОСВІТИ
Університет автора: 
Київський національний університет будівництва і архітектури, Київ
Литература: 

1. Колесніков О.Є. Основні аспекти впровадження дистанційної освіти / О.Є. Колесніков, В.Д. Гогунський // Інформаційні технології в освіті, науці та виробництві. – Херсон-Одесса: Вип.1 (1) – 2012 – С.34-41.

2. Білощицький А.О. Ефективність методів пошуку збігів у текстах / А.О.Білощицький, О.В. Діхтяренко // Управління розвитком складних систем. – К.: КНУБА Вип. 14. – С. 144-147.

3. Высоцкий, В.Ю. Поисковые алгоритмы для автоматизированного обучения [Текст] / В.Ю. Высоцкий, В.Д. Гогунский // Інформаційні технології в освіті, науці та виробництві. – № 3(4), 2013. – С. 105-113.

4. Зеленков Ю.Г. Сравнительный анализ методов определения нечетких дубликатов для Web-документов [Електронний ресурс] / Ю.Г. Зеленков, И.В. Сегалович. – Режим доступу: http://download.yandex.ru/company/download /paper_65_v1.pdf.

5. Толчеев В.О. Анализ пpоблемы и pазpаботка пpоцедуpы выявления нечетких дубликатов научных статей по библиогpафическим описаниям [Текст] / В.О. Толчеев. – изд. "Новые технологии", "Инфоpмационные технологии", 2011. № 2 (174). – С.17-21.

6. Буй Д.Б. Scopus та інші наукометричні бази: прості питання та нечіткі відповіді / Д.Б. Буй, А.О. Білощицький, В.Д. Гогунский // Вища школа. Наук.-практ. видання – Вип. 4 (118) / 2014 – С. 27-40.

7. Бурков В.Н. Параметры цитируемости научных публикаций в наукометрических базах данных / В.Н. Бурков, А.А. Белощицький, В.Д. Гогунский// Зб. наук. праць: Управління розвитком складних систем. – К.: КНУБА, 2013.
– Вип. 15. – С. 134-139.

References: 

1. Kolesnikov, O. Ye., Gogunsky, V. D. (2012). Basic Aspects of Distance Education. – Kherson-Odessa, 1 (1), 34-41.

2. Biloshchytskyi, A., Dikhtyarenko, O. (2013). Effectiveness of methods to search for matches in the texts. Management of complex systems. Kyiv, Ukraine: KNUCA, 14, 144-147.

3. Vysotsky, V. Y. Gogunsky, V. D. (2013). Search algorithms for computer-aided instruction. Information technology in education, science and industry, 3 (4), 105-113.

4. Zelenkov, J. G., Segalovich I. V. Comparative analysis of duplicate detection methods for Web-documents [E resource]. – Mode of access: http://download.yandex.ru/company/download /paper_65_v1.pdf.

5. Tolcheev, V. O. (2011). Analysis PROBLEMS pazpabotka and near-duplicate detection window procedure of scientific articles on bibliogpaficheskim descriptions. "New technologies", "Infopmatsionnye technology", 2 (174), 17-21.

6. Buy, D. B., Biloshchytskyi, A. O., Gogunsky, V. D. (2014). Scopus and other scientometric database: simple questions and vague answers. Vyshcha shkola. Naukovo-praktychne vydannya, 4 (118), 27-40.

7. Burkov, V. N., Beloshchytskyi, A. O., Gogunsky, V. D. (2013). Options citation of scientific publications in scientometric databases. Management of complex systems. Kyiv, Ukraine: KNUCA, 15, 134-139.