03.com.ua- свободная медицинская энциклопедия. Каждый зарегистрированый участник может редактировать статьи

Оцифровка книг

Материал из 03.com.ua.
Перейти к навигации Перейти к поиску

Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети.

Методика оцифровки

Шаблон:Викиучебник В прошлом чаще применялся ручной набор текста книги.

Сегодня процесс оцифровки включает два подхода.

  1. Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путем сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная верстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.
  2. Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной верстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.

В последнее время (особенно с появлением формата DjVu) все чаще применяется смешанный подход: текст книги распознается в автоматическом режиме и накладывается на оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.

Книжные сканеры

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

  • для домашнего пользования (например, Plustek OpticBook 3600), сконструированные для облегчения процесса именно книжного сканирования, однако в основе своей имеющие обычный планшетный сканер;
  • полуавтоматические (например, Atiz BookDrive DIY), когда страницы книги по-прежнему переворачивают вручную;
  • полностью автоматические, или роботизированные (например, Atiz BookDrive, Kirtas APT BookScan 2400, DigiBook 2000LC или 4DigitalBooks DL 3000), оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая головка, а одна закрепленная вертикально цифровая камера либо система из двух фотокамер (с эквивалентным разрешением 30—140 Мпикс.), установленных над сканируемой книгой и расположенных под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота. Такой подход позволяет достичь производительности 500—2000, иногда до 3000 стр./ч.

Крупные проекты по оцифровке книг

Шаблон:Main Шаблон:Main В ходе масштабных проектов по оцифровке книг, как правило, обрабатываются книги, перешедшие в общественное достояние. Хотя Google оцифровывает вообще все книги, однако книги, защищенные авторским правом, предоставляет лишь в виде фрагментов. К крупным проектам по оцифровке на сегодня относятся:

Шаблон:Stub en:Book scanning de:Buchscanner