hOCR

Матеріал з Вікіпедії — вільної енциклопедії.
Версія від 11:43, 22 лютого 2020, створена BunykBot (обговорення | внесок) (Категоризація)
Перейти до навігації Перейти до пошуку


hOCR — відкритий стандарт, який визначає формат даних для представлення OCR-виводу. Стандарт має на меті долучити до розпізнаного тексту інформацію про макет, рівень вірогідності розпізнавання, стиль та інші дані. Для досягнення цілі долучення цієї інформації до розпізнаного тексту використовується стандартний формат HTML.

Існує утиліта командного рядка hocr2pdf[1] для перетворення hocr-даних у файли PDF.

Див. також

  • Програмне забезпечення, яке використовує цей формат:
    • HOCR (Hebrew OCR) — вільне програмне забезпечення OCR для розпізнавання івриту для Linux
    • OCRopus — відкрите програмне забезпечення OCR для Linux
    • CuneiForm — вільне програмне забезпечення OCR

Посилання