Оцифровування книг

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Оцифровування книг (або журналів) — це процес переведення паперових книг в електронний формат. Цифрові копії книг можна легко поширювати, відтворювати та читати на екранах своїх електронних пристроїв.

Опис[ред. | ред. код]

Книжковий сканер проекту Open Library від Інтернет-архіву

Зазвичай відскановані книги зберігаються в таких графічних форматах: DjVu, pdf, jpeg або tiff. Такий формат більш-менш прийнятний для відтворення на великих екранах, для мобільних пристроїв такі формати не прийнятні, тому що при зменшенні масштабу погіршується можливість читання відсканованого тексту. Тому варто провести розпізнавання тексту, та перевести інформацію із графічного формату в цифровий (електронний текст). Отриманий результат можна зберігати в зручному форматі файлів, із застосуванням розмітки тексту: rtf, doc, HTML, звичайний текстовий файл; а також спеціальними форматами файлів для електронних книг: fb2 (а також архівна його версія .fb2.zip), epub та інші. Також після розпізнавання тексту кінцеві файли стають значно меншого об'єму і з'являється можливість працювати із текстом.

Сканування можна проводити як і в ручному режимі, так і автоматично. В звичайних планшетних сканерах книгу розташовують на склі, на зображення подається світло, а оптичний механізм сканує, рухаючись під склом. У спеціальних сканерах для сканування книг скляна пластина з однієї сторони доходить до краю сканера, тому книгу можна сканувати у напіврозгорненому вигляді, при цьому гарно сканується навіть середня частина книги. В інших книжкових сканерах використовується V-подібна рама, а сторінки фотографуються зверху. Сторінки можуть перегортатися вручну, або за допомогою спеціальних автоматичних пристроїв подачі листків. Спеціальне масивне скло може притискати сторінки, щоб згладити всі недоліки сканування. Після сканування програмне забезпечення проводить корекцію зображення, вирівнює, обрізає його, проводить розпізнавання, переводить у електронний текст та остаточну форму електронної книги. Якісна конвертація відсканованого матеріалу потребує перевірки людиною.

Для сканування достатня роздільна здатність у 300 точок на дюйм, щоб перетворити у електронний вигляд. Проте у деяких випадках. при роботі із складними і рідкісними книгами необхідна більша роздільна здатність. Високотехнологічні сканери можуть сканувати близько тисячі сторінок за годину, але їхня ціна може складати тисячі доларів. Можна й самостійно виготовити сканер, який зможе сканувати до 1200 сторінок за годин, а його вартість близько трьохсот доларів.

Методика оцифровування[ред. | ред. код]

Раніше використовувалося ручний набір тексту книги.

Після того, як сканери набули поширення й стали більш доступнішим, оцифровування проводиться із двох частин.

  1. Обов'язкова частина: отримати копії сторінок у вигляді графічних (зазвичай растових) зображень, здійснюється шляхом сканування, або фотографування з наступною обробкою та збереженням результату в одному із форматів графічних файлів. На цьому етапі повністю зберігається оригінальна верстка книги, виключаються будь-які помилки, але при цьому неможливий пошук по тексту, або копіювання тексту, наприклад, для цитування.
  2. Додатково: розпізнавання тексту, з наступним збереженням результату в один із форматів електронних книг. В результаті стає можливий повнотекстовий пошук по книзі, але при цьому може бути втрачена оригінальна верстка, зображення, схеми та формули, практично неминучими стають помилки розпізнавання.

Із розвитком технологій та можливостей форматів DjVu та PDF набуває популярності змішаний підхід оцифровування книг: текст розпізнається в автоматичному режимі, і вшивається під оригінальне зображення сторінок, результатом буде сумісність обох підходів (збереження оригінальної верстки та можливість текстового пошуку та копіювання тексту).

Книжкові сканери[ред. | ред. код]

До книжкових сканерів відносяться вузькоспеціалізовані сканери, які призначені для найбільш швидкого і/або зручного отримання растових копій сторінок книги. Сканери поділяються на три категорії:

  • планшетні — сканери, призначені для домашніх користувачів, але сконструйовані саме для полегшення сканування книг.
  • планетарні — професійні високопродуктивні сканери.
  • роботизовані (англ.) — промислові сканери з надзвичайною продуктивністю, обладнані пристроями різних конструкцій для автоматичного перегортання сторінок.

В двох останніх типах сканерів зазвичай не використовується скануюча лінійка, а цифрова камера з високою роздільністю (30-140 мегапікселі). В деяких моделях можливе використання двох камер, які розташовані під кутом відносно одна одної так, щоб робити знімки всього розвороту ( при цьому немає потреби розгортати книгу на 180°, що вкрай важливо для сканування старих екземплярів, або тих, які знаходять у надзвичайно поганому стані).

Сканування з обрізанням сторінок[ред. | ред. код]

У проектах із малим бюджетом використовують сканування книг або журналів із обрізанням сторінок від обв'язки. Після обрізання книга або журнал перетворюються на стос документів, які вже можна завантажити в сканер, який обладнаний пристроєм автоматичної подачі документів. Дана методика однозначно не підходить для старих, незвичних, рідкісних або колекційних книг. Дана методика складається із двох етапів: обрізання сторінок, та їх сканування.

Обрізання сторінок[ред. | ред. код]

Один із методів нарізання сторінок в кількості від 500 до 1000 за один раз, виконується із використанням гільйотини для паперу. Його конструкція складається із металевого столу з лещатами для паперу. Зріз виконується великим сталевим гострим лезом, яке розрізає кожен листок по всій довжині одразу. Важіль на лезі дозволяє прикладати силу порядку сотень кілограм, яка необхідна для розрізу стосу паперу. Рівний зріз неможливо зробити класичним серпоподібним ножем, так як він призначений для обрізки невеликої кількості листків, де вже 10 будуть критичною межею. З плином часу під час нарізання великого стосу паперу розріз стає все більш неточним, а зусилля, яке потрібно докладати для нарізання паперу, збільшується. Під час нарізання паперу ніж гільйотини притуплюється, і його постійно потрібно заточувати. Папір із покриттям затуплює ножа швидше, ніж звичайний.

Сканування[ред. | ред. код]

Коли папір звільняється від обв'язки, його вже можна сканувати за допомогою традиційного планшетного сканера, або можна використовувати сканер із автоматичною подачею документів. Сторінки з рифленою декоративною окантовкою або зігнуті в дугу проблемні для сканування за допомогою пристрою автоматичної подачі. Автоподача призначена для сканування сторінок однакової форми та розміру, тому наявність сторінок різної форми та розмірів можуть привести до неправильного сканування. Також погано підходить для пристрою автоматичної подачі глянцевий папір журналів та підручників. Найменше проблем зі звичайним папером. Липкий ролик, який вихвачує папір з часом може стертися, тому варто слідкувати за його дієздатністю. Якщо в стосі між листків звичайного паперу є кольорові вставки або карти, їх необхідно забрати перед опрацюванням, і сканувати окремо.

Сканування зі збереженням книги[ред. | ред. код]

Ескіз V-подібного книжкового сканера
Ескіз звичайного книжкового сканера
Цифрова камера Elphel 353, використовується в багатьох проектах сканування, в тому числі і Google книги використовують її.[1]

Сканери, проектуються на основі цифрових фотоапаратів. Призначаються для оцифровування як зшитих, так і разшитих видань. Підходить для обробки як і нових, так і стародавніх видань. За рахунок спеціальної V-подібної основи, яка дає змогу не розкривати книгу повністю (на 180°), що зводить до мінімум негативний вплив на книгу. Сканована книга фіксується в одному робочому положенні. Швидкість сканування (кольоровий режим) — близько 500—700 сторінок/год. Сторінки перегортають вручну (існують моделі і з автоматичним перегортанням, але цінні, застарілі книги, які складають основу бібліотечного фонду, не рекомендують сканувати на такому обладнанні, щоб уникнути пошкоджень). Формат документів для сканування від А2 до А4. Роздільність отримуваних зображень — 130—470 dpi. Сканери подібного типу займають багато робочого простору, але майже не ламаються, так як по суті це платформа для сканування. Модернізацію можна проводити просто заміною фотокамер на сучасніші моделі.

Великі проекти по оцифровуванні книг[ред. | ред. код]

В процесі масштабних проектів по оцифровуванні книг, як правило, обробляються книги, які вже перейшли до суспільного надбання. Але Google оцифровує всі книги, і ті, які ще захищені авторським правом, представляє лише у вигляді фрагментів. До великих проектів по оцифруванню на сьогоднішній день відносяться:

Однією із головних проблем є неймовірна кількість книг, та іншого друкованого матеріалу, який має бути відсканований. Десятки мільйонів книг будуть відскановані, а потім повинні будуть знаходитися у вільному доступі для пошуку та читання в інтернеті як універсальна бібліотека. В наш час великі організації покладаються на аутсорсинг, або сканування дома з використанням професійних або роботизованих сканерів.

Що стосується аутсорсингу, то книги часто відправляються на оцифровування в Індію чи Китай, де один із найдешевших ринків робочої сили. Професійні сканери використовують цифрові камери, що значно прискорює процес. Для використання роботизованих сканерів традиційно потрібно відокремлювати сторінки від обв'язки та обкладинки книги, щоб використовувати пристрій автоматичної подачі сторінок на сканер.

Після того, як сторінки відскануються, оператор вводить дані вручну, або за допомогою OCR-програми, цей етап також впливає на вартість ціни сканування книги. Авторське право поширюється і на відскановані книги, тому зазвичай скануються вже ті книги, на які захист завершився. Хоча Google книги сканують і поширюють всі, і тільки за вимогою видавця прибирають книгу із загального доступу.

Оцифровування за бажанням[ред. | ред. код]

Ряд великих бібліотек надають особливі послуги по оцифровуванні публікацій зі своїх фондів за побажання читачів. Основні критерії: публікації мають належати до суспільного надбання і бути достатньо добре збереженими. Таким чином, як тільки з'являється фінансування проводиться оцифровування згідно накопичених заявок, або виставляються пріоритети під час масового сканування. Як правило, відмітка про можливість сканування інтегрована у каталог бібліотеки, а оцифрована публікація розміщується в електронній бібліотеці для загального доступу.

Існуючі проекти[ред. | ред. код]

  • «Scan-on-demand» (Сканування за вимогою) — безкоштовний інтернет-проект Open Library, будь-хто може вибрати книгу зі списку (фонди Бостонської публічної бібліотеки), який містить велику кількість літератури XIX—XX століття. Оцифровування проводиться засобами некомерційної організації Інтернет-архів. Заявлені терміни виконання — 5—8 робочих днів. На сайті openlibrary.org вже зібрано понад мільйон оцифрованих публікацій.

Примітки[ред. | ред. код]