
А.О. Білощицький, О.В. Діхтяренко, Т.О. Лященко
Автор(и) (англ)
Biloshchytskyi, A., Dikhtiarenko, O., Liashchenko, T
Дата публікації:


Анотація (укр):

Запропоновано спосіб модифікації текстових даних документа зі збереженням відповідності модифікованого документа оригінальному, а також можливість прямої обробки форматів MS Word, PDF та їх конвертація. Розглянуто три найпопулярніші формати збереження документів: DOC, DOCX і PDF, та можливі способи їх конвертації у базовий формат для подальшої роботи з вмістом.

Анотація (рус):

Предложен способ модификации текстовых данных документа с сохранением соответствия модифицированного документа оригинальному, а также возможность прямой обработки форматов MS Word, PDF и их конвертация. Рассмотрены три самые популярные формата хранения документов: DOC, DOCX и PDF, и возможные способы их конвертации в базовый формат для дальнейшей работы с содержимым.

Анотація (англ):

In this paper the method of modifying text data documents with matching modified the original document. As different formats are fundamentally different structure, the rational solution is to bring all formats to one standard for us form or format. It will not write tools to work with all types of files, and creates the opportunity to write tools to work with just one format converters and other formats to be chosen. This approach will allow for easy expansion in the future the number of formats supported, because adding support for new formats only need to write a converter. Also, the possibility of direct processing formats MS Word, PDF and convert. In the article the 3 most popular formats to save documents: DOC, DOCX and PDF, and their possible conversion into a basic format for further work with the content. A basic format of HTML, as supports saving and formatting all we need entities and has a simple structure that facilitates its handling. In order to process text data suggested build vocabulary index document that represents a table, the first column of which the position of words in the text, and the second - the actual words. This structure allows to process document Literal and apply to individual words any modification while retaining the possibility to compare the modified sample from the original.


