hOCR

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
HOCR
Тип мова розмітки даних і формат файлу

hOCR — відкритий стандарт, який визначає формат даних для представлення OCR-виводу. Стандарт має на меті долучити до розпізнаного тексту інформацію про макет, рівень імовірності розпізнавання, стиль та інші дані. Для досягнення цілі долучення цієї інформації до розпізнаного тексту використовується стандартний формат HTML.

Існує утиліта командного рядка hocr2pdf[1] для перетворення hocr-даних у файли PDF.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

Посилання[ред. | ред. код]