03.com.ua- свободная медицинская энциклопедия. Каждый зарегистрированый участник может редактировать статьи
Оцифровка книг
Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети.
Методика оцифровки
Шаблон:Викиучебник В прошлом чаще применялся ручной набор текста книги.
Сегодня процесс оцифровки включает два подхода.
- Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путем сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная верстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.
- Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной верстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.
В последнее время (особенно с появлением формата DjVu) все чаще применяется смешанный подход: текст книги распознается в автоматическом режиме и накладывается на оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.
Книжные сканеры
К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:
- для домашнего пользования (например, Plustek OpticBook 3600), сконструированные для облегчения процесса именно книжного сканирования, однако в основе своей имеющие обычный планшетный сканер;
- полуавтоматические (например, Atiz BookDrive DIY), когда страницы книги по-прежнему переворачивают вручную;
- полностью автоматические, или роботизированные (например, Atiz BookDrive, Kirtas APT BookScan 2400, DigiBook 2000LC или 4DigitalBooks DL 3000), оборудованные устройствами различных конструкций для автоматического переворачивания страниц.
В двух последних типах сканеров обычно применяется не сканирующая головка, а одна закрепленная вертикально цифровая камера либо система из двух фотокамер (с эквивалентным разрешением 30—140 Мпикс.), установленных над сканируемой книгой и расположенных под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота. Такой подход позволяет достичь производительности 500—2000, иногда до 3000 стр./ч.
Крупные проекты по оцифровке книг
Шаблон:Main Шаблон:Main В ходе масштабных проектов по оцифровке книг, как правило, обрабатываются книги, перешедшие в общественное достояние. Хотя Google оцифровывает вообще все книги, однако книги, защищенные авторским правом, предоставляет лишь в виде фрагментов. К крупным проектам по оцифровке на сегодня относятся:
- Google Book Search;
- проект «Гутенберг»;
- проект Gallica Национальной библиотеки Франции;
- проект Archive.org и др.