0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Быстрая оцифровка учебников своими руками

Быстрая оцифровка учебников своими руками

Оцифровка книги — это создание электронной версии печатной книги и сохранение ее в одном из цифровых форматов. Зачем, вообще, оцифровывать книги? Посмотрим на объемы. Средний вес страницы оцифрованной книги составляет 13КБ. Это значит, что книга в 400 страниц займет на носителях около 5 МБ. И тогда, например, в стандартный DVD-диск объемом 4,7ГБ можно записать 900 таких книг.

Издание. Если на создание и выпуск обычной книги уходит полгода, то электронный вариант издается за неделю.

Распространение. Электронные книги могут распространятся по сети или на физических носителях — CD, DVD-дисках, что значительно дешевле пересылки бумажных аналогов.

И еще, электронные книги экономят бумагу, и хочется верить, хотя бы немного сохраняют природу.

Собрания электронных копий книг, картин, фотографий образуют электронные библиотеки на ресурсах сети, к которым может быть открыт самый широкий доступ. В этом плане, в настоящее время в нескольких странах реализуются масштабные проекты по оцифровке фондов крупнейших мировых библиотек. В грандиозном проекте компании Google ставится задача, ни много, ни мало, оцифровать все существующие в мире книги, количество которых по оценкам специалистов компании составляет 130 миллионов штук.

Скорее всего, работая в офисе нам никогда не придется заниматься оцифровкой целой книги. Но бывает, что нужно оцифровать несколько страниц из книги или журнала. Например, извлечь из сборника одну-две статьи и сохранить их в оптимальном формате. Ну, а на бытовом уровне, бывает, что к нам на время попала интересная книга и хотелось бы сделать и сохранить ее копию. Принципиально, оцифровка печатной книги мало чем отличается от оцифровки многостраничного документа. Почитать про оцифровку документов и поучится работать в соответствующих программах можно в теме: Оцифровка документов.

В рунете найдется немало различных методик по оцифровке книг. Если мы не собираемся профессионально заниматься этими делами, а хотим, просто, научится создавать электронные версии книг приемлемого качества, достаточно будет этой темы и вложенных в нее уроков.

Приступим к практической части. Сначала отсканируем страницы книги и сохраним их в единый файл. Это — в уроке: Сканирование книги.

Итак, мы отсканировали страницы книги и сохранили их изображения в файл формата «tif». Только в этом формате мы можем сохранять растровые изображения без потерь в едином файле. Уже сейчас, мы можем просматривать страницы, прокручивая их в графическом редакторе. Однако, книга формата «tif» лишена навигации и имеет очень большой вес. Для создания, хранения и распространения электронных версий книг, рукописей, журналов была разработана специальная технология сжатия изображений — формат DjVu. Дежавю — это высокая точность сохранения первоисточника и большая степень сжатия изображений. Сегодня, дежавю является оптимальным решением при оцифровке книг.

Продолжаем практикум и, теперь, преобразуем заготовку нашей книги — несжатый файл: «Book.tif» в корректный DjVu-формат. Как это сделать и что для этого будет нужно, читаем в уроке: Кодирование в DjVu.

Итак, мы сделали нашу первую электронную книгу или, может быть, оцифровали несколько страниц из книги: рассказ или статью и сохранили наши труды в формате DjVu.

А теперь, немного об этом формате.

Большинство книг в сети распространяется в формате DjVu или PDF. Формат PDF разрабатывался с целью сохранения электронных документов, их распространения и последующего точного печатного воспроизведения. «PDF» хорошо сжимает текст и графику. Точно воспроизводит на различных устройствах документы, созданные электронным способом. А DjVu-формат создавался для получения в качестве конечного продукта только оптимальной электронной версии печатного документа. «DjVu» — это очень высокая степень сжатия данных, высокая точность воспроизведения источника, возможность поиска информации в файлах. Электронная DjVu-книга сильно выигрывает у своего PDF-аналога в качестве и весит значительно меньше. Можно сказать, что «DjVu» — это идеальное решение при оцифровке книги. «DjVu» уступает в качестве изображений «PDF» при кодировании насыщенных иллюстрациями журналов, детских книг, фотокаталогов, альбомов.

Другое дело, что сегодня «PDF» — один из наиболее популярных форматов в мире. Исторически сложилось так, что «PDF» был раньше разработан — в 1991 году, и был стандартизирован ISO. Написано множество приложений для работы с документами «PDF».

Формат DjVu был создан позже — в 1996 году и не имеет международной стандартизации. Программ для работы с DjVu-документами значительно меньше. Так что, если мы решили поделиться DjVu-книгой, не забываем, из любезности, дать в придачу и программку к ней. Чтобы комфортно пользоваться DjVu- документами, понадобится бесплатный WinDjView‘ер. Нетрудно найти и скачать эту программу в рунете. Это приложение замечательно еще и тем, что в нем реализована функция печати. Вдруг, захочется распечатать книгу,- «. хорошо, когда на полке стоит!». В другом просмотрщике: DjVuReader’е функции печати нет.

Заканчивая темы оцифровки, можно сказать, что для хранения электронных версий бумажных документов хорошей альтернативой популярному PDF является замечательный формат DjVu, развитию которого мешает лишь инерция мышления.

Как сделать электронную копию бумажной книги

Решили сделать копию бумажной книги в электронном формате DjVu или PDF? Узнайте, через какие трудности вам придется пройти и какой софт при этом пригодится.

Читать еще:  Удобный садовый столик своими руками

Что для вас значит книга? Если это не просто увлекательный попутчик, но и мудрый наставник, то вы хоть раз задумывались о том, чтобы сберечь ее на будущее. Оцифровка бумажных книг имеет два несомненных преимущества: книга в электронном виде всегда под рукой, и ей очень легко делиться.

Из этого мануала вы узнаете об основных этапах создания удобной электронной версии бумажной книги с навигацией и возможностью копирования текста.

Вступление

Стоит оговориться, что в век бурной защиты авторских прав и легкой доступности литературы, изначально сверстанной в электронной форме, имеет смысл оцифровывать либо старые фундаментальные советские учебники, либо что-то действительно редкое и только для личного пользования.

Имея доступ к старым техническим справочникам, я иногда безвозмездно помогал тем незнакомым мне людям, которым так не хватало хороших источников знаний для обучения. И коль уж я подряжался, хотелось выполнить свою работу на достаточно высоком уровне, чтобы читателю книги было приятно в нее погружаться.

Этап 1. Копирование книги

Со временем многие процессы упрощаются. Если с пяток лет назад этот этап был крайне продолжительным (приходилось пользоваться сканером), то с улучшением камер мобильных телефонов затрачиваемое время существенно сократилось. Конечно, камера камере рознь, но, если подобрать приемлемые условия съемки, должен подойти любой более-менее современный телефон.

Разумеется, использование сканера все же более предпочтительно. Особенно если дело касается технической литературы, содержащей множество формул и чертежей.

Предвосхищая события, отмечу, что снимки впоследствии будут обработаны специальной программой. Но все же стоит добросовестно отнестись к самой съемке, дабы не ставить качество конечного продукта в зависимость лишь от постобработки.

Пример не самого хорошего снимка: освещение страдает, страницы до конца не выпрямлены. Все ради эксперимента

Поэтому постарайтесь максимально широко раскрывать страницы, чтобы изгибы у корешка книги были минимальны. Было бы здорово, если бы вам кто-то в этом помогал. Один человек держит телефон, а второй переворачивает и выпрямляет страницы. Ко всему прочему, студенты любят делать на библиотечных книгах пометки, и неплохо было бы их стереть.

Делаем серию снимков и перекидываем их на компьютер в отдельную папку. Пришла пора поработать неживому мозгу.

Этап 2. Обработка

Я сталкивался с двумя серьезными программами для обработки отсканированных (сфотографированных) книг: ScanTailor и ScanKromsator. Возможно, за годы моего инактива появились еще какие-то достойные альтернативы, но я сомневаюсь — уж очень мала и бедна пользовательская ниша. Самые прожженные книгоделы предпочитают ScanKromsator. В нем предельно много настроек и возможностей, но разобраться и понять все предложенные навороты, видимо, не в состоянии и сам автор программы (шутка). Поэтому я рекомендую вам ScanTailor. Мне довелось следить за развитием этой утилиты с первых дней ее существования. Разработчик еще несколько лет назад прекратил поддержку проекта, но все-таки дал миру хороший инструмент для обработки сканов.

Начало работы

Работа в ScanTailor последовательна и проста. Все промежуточные действия отображены в левой части рабочей области, вы с легкостью вольетесь в процесс.

Выберите папку с исходниками, выходная папка будет создана автоматически. Для всех страниц установите максимально возможное DPI — 600 × 600. Мощности современных компьютеров позволяют достаточно быстро обрабатывать такие изображения.

Не жалейте DPI для своей книги

Шаг 1. Исправление ориентации

Самый простой и быстрый шаг. Скорее всего, вы изначально фотографировали страницы с верной ориентацией, потому и хлопот возникнуть не должно. Отмечу лишь, что изначально ScanTailor будет предлагать вам запустить пакетную обработку текущего действия (небольшой значок Play напротив шага) — обязательно им пользуйтесь, дабы не щелкать по каждому изображению отдельно.

На мой взгляд, ScanTailor может гордиться своим продуманным интерфейсом

Шаг 2. Разрезка страниц

Практически беспроблемный шаг. Я крайне редко встречал ошибки программы на этом этапе. Обязательно обратите внимание на обложку книги — именно здесь зачастую возникают нюансы.

Большей наглядности и придумать трудно

Шаг 3. Компенсация наклона

В подавляющем большинстве случаев алгоритм срабатывает корректно. Не ждите подвоха, переходите к следующему шагу.

К вашим услугам ручная настройка до долей градуса

Шаг 4. Полезная область

Наверное, это самый ответственный момент. Только содержание книги имеет определяющее значение, оформление — дело вторичное. Именно с этого шага начинает работать связка «компьютер — человек». В программе порой случаются небольшие сбои, поэтому после автоматической обработки пробегитесь глазами по миниатюрам страниц в правой части экрана. Обычно ошибки сразу бросаются в глаза.

«Бракованная» полезная область будет видна при просмотре миниатюр страниц

Шаг 5. Поля

Размер полей — дело вкуса. Более важным моментом является возможность выравнивания размеров страниц. Не забудьте поставить эту галочку, чтобы не получить на выходе «пляшущие» страницы.

Обложку обычно приходится дорабатывать в графическом редакторе

Шаг 6. Выход

Последний бой — он трудный самый. Плюс самый ресурсоемкий для вашего компьютера и самый требовательный к вашему вниманию.

Необработанные страницы помечаются вопросительным знаком

Финишный отрезок знаменуется рядом важнейший действий. Прежде всего вы определяете выходной режим книги: черно-белый, цветной или смешанный. Затем страницы очищаются от мусора, искривленные строки выравниваются. Не буду вдаваться в подробности, но укажу вам на не самые заметные закладки, расположенные несколько нелогично и непривычно — между превью страницы и лентой миниатюр. Каждая закладка отвечает за важную функцию ручной настройки получаемых изображений. Если вы найдете желание и время вникнуть в принцип их работы, ваши книги будут более высокого качества.

Читать еще:  Уютная накидка спицами

Страница до и после корректировки искажения строк

Стремясь к идеалу, на эту работу вы можете потратить не один час. Все зависит от вашей заинтересованности в конечном результате и качестве исходных снимков. Да, я еще раз возвращаюсь к этой теме. Чуть большие старания на этапе подготовки могут сэкономить огромное количество времени, которое уходит на приведение страниц в приличный вид.

Прошу не брать за образец приведенные скриншоты — на все про все у меня ушло не более пары минут. Я не сомневаюсь, что забыл указать вам на некоторые нюансы работы со ScanTailor — слишком давно я ничего не обрабатывал с его помощью.

В итоге вы получите набор разрозненных страниц в формате .tif. Пора сшиваться!

Этап 3. Создание djvu-файла

Если вы хотите быстро сварганить DjVu-файл, обратитесь за помощью к малюсенькой утилите DjVu Small. Есть и более серьезные программы, например DjVu Editor Pro. Конечно, предпочтительным видится применение второго инструмента. Но решать вам: установите обе программы и сравните их возможности.

Что касается создания PDF — в Интернете есть вагон и маленькая тележка соответствующих программ и веб-сервисов.

Этап 4. Создание OCR-слоя

Одним из признанных мировых лидеров в распознавании текста несомненно является компания ABBYY с ее известным продуктом FineReader. Наверное, нет таких людей, которые не слышали об этой программе, поэтому и расписывать особо нечего. С недавнего времени FineReader умеет открывать и сохранять результаты работы прямиком в DjVu, что исключает необходимость использования промежуточного софта.

Этап 5. Создание оглавления

На просторах Сети довелось встречать положительные отзывы о программе Pdf & Djvu Bookmarker. Как становится понятно из названия, софтина умеет работать с обоими самыми распространенными форматами электронных книг.

Заключение

Скорее всего, вы не осилили много букв и сразу перешли к выводам. А они для рядового человека неутешительны. Электронное книгоиздание — дело хлопотное, полное трудностей и сюрпризов. Чтобы дослужиться даже до «зеленого пояса», вам придется потратить кучу времени. Оцифровка бумажных книг на высоком уровне — удел энтузиастов. Если вы все же решитесь пройти чертову дюжину кругов ада, то получите непередаваемые впечатления. Всегда приятно делать что-то общественно полезное и получать за это обычные человеческие благодарности.

Но в целом рекомендую остановиться после обработки в ScanTailor, объединить разрозненные страницы в PDF и дальше не лезть в дебри.

Осознанно и бессознательно я упустил кучу мелочей и нюансов, которые подстерегут вас на пути создания хорошей электронной книги. Надеюсь, что к обсуждению в комментариях подключатся знающие люди и укажут на мои неточности или расскажут о своих секретах.

Цифровое «книгопечатание»

Пошаговое руководство по оцифровке книг. Часть 1

Задеть больную тему качественного перевода бумажных изданий в цифровую форму заставляет сама жизнь. В электронных интернет-библиотеках книги появляются довольно новые, но вот качество их обработки оставляет желать лучшего. Страницы не обрезаны, картинки размыты, текстовый (OCR) слой не добавлен и ещё много всяких больших и маленьких огрехов.

Понимаю, бывают случаи, когда необходимо быстро создать электронную копию для собственных нужд, но должно быть совестно выкладывать такой полуфабрикат в Сеть и заставлять людей страдать (ибо чтением назвать процесс просмотра таких «шедевров» язык не поворачивается). Если уж у вас нет сил, чтобы отсканированный «манускрипт» привести в приемлемый вид, — просто заархивируйте сканы и выложите на специализированных форумах. Поверьте, всегда найдутся люди, готовые пожертвовать своим временем для создания электронного варианта книги, за который потом не было бы стыдно перед её читателями.

Итак, возвращаясь к нашим баранам. Основы «DJVU-печатания» были рассмотрены в «Компьютерных вестях» №№5-6 за 2007 год Андреем Ачиновичем. Дабы не переписывать уже имеющуюся информацию, остановимся на некоторых нюансах, связанных, в основном, с качеством создаваемых сканов книг, а также на появившихся нововведениях и улучшениях, с позволения сказать, техпроцесса. Времени после публикации вышеупомянутой статьи прошло довольно много — появились новые версии прежних программ, да и разработаны новые утилиты. Конечно, тема процесса создания книг затёрта уже практически до дыр на различных форумах и в печатных изданиях, но, как ни странно, улучшению качества недавно отсканированных книг это не способствует. Цель статьи — поднять уровень уже существующих «Гуттенбергов» века компьютерного и привлечь новичков к этому важному делу.

Здесь особенных премудростей нет — как правило, выставления разрешения 300 dpi для страницы в формате Gray вполне достаточно. Всё остальное зависит только от сканера. Кстати, обложку книги и особо важные иллюстрации я всё-таки рекомендую сканировать в цвете (16- или 24-битном), опять же — для того, чтобы наша цифровая книжка получилась красивая. Кроме того, желательно разворот книги на сканерном стекле особенно не перекашивать и не менять каждый раз его местоположение. Потом будет проще всё лишнее обрезать (не стоит полностью уповать на возможности автоматического разворота и разрезания страниц, имеющихся в пакетах типа ABBYY FineReader).

Сканировать в разрешении больше 300 dpi смысла нет, так как, во-первых, увеличивается износ механики сканера (к примеру, мой старый Mustek 12000 SP+ на 300 dpi сканирует страницу за один проход, а на 600 останавливается четыре раза), а во-вторых, разрешение впоследствии можно исправить вручную, с помощью специализированного ПО (об этом ниже). Сканирование, на мой взгляд, во всей технологии e-book самый нудный процесс, и тенденции к облегчению и упрощению пока не намечается. Всё равно переворачивать страницы приходится вручную. Хотя, к примеру, в некоторых сканерах производства HP возможности пакетного сканирования сводят неудобства до минимума. Настроил один раз качество и разрешение сканируемой картинки — и знай себе переворачивай страницы да не забывай нажимать кнопку «Scan» на крышке сканера. Всё остальное уже сделает автоматика. В результате в выбранную папку будут ложиться готовые сканы.

Читать еще:  Домик — игровой комплекс для кошки своими руками

Что же касается владельцев не столь продвинутой техники, то им придётся пользоваться старым добрым IrfanView с установленным специализированным плагином AutoScan (labun.com/autoscan.zip) от Eugen Labun. Скачиваем данный архив со страницы автора и распаковываем файлы autoscan.vbs и AutoWindowEnabler.exe в директорию с установленным IrfanView. Далее заходим в меню Файл > Получить/Отсканировать, выбираем режим сканирования «Одно изображение» и сканируем и сохраняем образец с нужными нам параметрами. Назвать первый скан лучше всего 001.* (так советует автор). Теперь запускаем распакованный ранее файл autoscan.vbs. Программа покажет заданные ранее параметры и после нажатия на «OK» начнётся автоматическое сканирование через определённые промежутки.

Файлы сохраняются с именами 001.*, 002.*, 003.* и т.д. в ту же директорию, где и первый файл. Файл AutoWindowEnabler.exe предназначен для слежения за окном IrfanView (часто бывает, что во время открытого TWAIN-диалога окно просмотрщика становится неактивным, а то и вовсе исчезает с экрана). Кстати, если вдруг скрипт что-то воспроизводит не так, как бы вам хотелось, или просто нужно изменить настройки — достаточно просто ещё раз произвести тестовый запуск IrfanView, а потом опять запустить макрос. Или же, щелкнув правой кнопкой мыши по файлу autoscan.vbs, выбрать «Изменить» и внести необходимые параметры вручную:

Как можно догадаться, StartingIndex показывает порядковый номер первого файла (от которого будет вестись счёт), Increment — величину, на которую будет увеличиваться порядковый номер каждой новой сканируемой страницы. NumberOfDigits — число знаков в цифровом индексе файла. DelayBetweenScans — задержку между окончанием одного прохода сканера и началом следующего (выставляется она строго экспериментальным методом и занимает ровно столько времени, сколько вам потребуется, чтобы перевернуть страницу). SetScanDPI — принудительное задание разрешения сканирования (необходимо в случае, если TWAIN-драйвер сканера такой возможности не предоставляет). Может принимать значение либо TRUE, либо FALSE; по умолчанию стоит второе. DPI — значение разрешения сканирования в случае выбора предыдущего параметра «TRUE». Сохраняем исправленный документ (отмечу, что лезть ручками можно только (!) в данную секцию, упаси вас бог экспериментировать с остальными, недоступными разуму рядового пользователя, параметрами — в результате таких необдуманных действий вместо картинки можно получить чёрти что).

Более продвинутым является использование специальной утилиты для потокового сканирования PaperCapture (djvu-soft.narod.ru/recogniform_paper_capture.rar) от компании Recogniform. После скачивания архива и его распаковки первым делом стоит запустить имеющийся .reg файл, дабы в дальнейшем избежать неожиданных действий со стороны программы. Затем просто запускаем PaperCapture.exe. В меню File > Scanner Settings создаём новый профиль с любым названием и активируем радио-кнопку рядом со строкой «This Scanner», где в выпадающем меню выбираем установленные на ПК устройства (если их у вас, конечно, несколько). Окно «Parameter» позволяет настроить параметры, с которыми будет сканироваться каждая новая страница. Я выставил минимальное количество наиболее необходимых:

чтобы получаемая картинка сначала разворачивалась (для двухстраничного скана), а потом выравнивалась (всё остальное можно качественно оформить на этапе «ретуширования» чернового материала). Жмём ОК и Ctrl+A. Остаётся только наблюдать за процессом сканирования и контролировать качество по отображаемым в окне программы эскизам. Кстати, результат пакетного сканирования можно сохранить не только в графический формат, но сразу и в PDF-файл (это на случай сканирования, к примеру, конспекта лекций).

Для любителей «глубокого копания» могу посоветовать использование пакета FastScan, который вместе с инструкцией по использованию можно скачать с «рапидшары» (rs101cg2.rapidshare.com/files/ 36486343/11054328/FastScan.rar). За основу там берется уже нам знакомый IrfanView, утилита-автоматизатор AutoRecorder 3.3 и программа для точного определения положения курсора Pixie 3.1. Первоначальная настройка ведется с помощью встроенной в Windows утилиты WIA (предназначенной специально для работы с цифровыми фотоаппаратами и сканерами). Доступна работа с ней после установки драйверов на оборудование, в которых имеется поддержка вышеупомянутой программы. Так как у меня в наличии таких драйверов не было, особенно акцентировать внимание на настройке этого комплекса программ и создании скрипта для сканирования я не стал. Скачав вышеупомянутый архив, внутри можно найти очень подробное иллюстрированное руководство по работе с комплексом программ. Так что если предложенные мною способы вас чем-то не устроят — всегда есть возможность пошевелить мозгами и попробовать данный способ (опять же, при условии, что в наличии у вас имеется подходящая модель сканера, а это практически все современные модели).

Применять для сканирования ABBYY FineReader всех версий до 9-й я не советую, ввиду того, что зачастую текст необратимо перекашивается. В 9-й же желательно в меню Options убрать галочку рядом со строкой «Исправлять перекос страниц». Что касается формата, в котором будет сохраняться черновой материал, то лучше всего использовать TIFF, потому что широко популярный JPEG размывает картинки, что в случае копии книги, по-моему, совершенно неприемлемо. Формат TIFF в случае сканов оттенков серого и цветных даёт лучшие результаты со сжатием по механизму LZW (без потери качества), для битовых чёрно-белых лучше всего применять сжатие по механизму CCIT FAX G4 (если вы сразу сканируете материал такой «битности»). Принципиальная их разница для рядового пользователя только в том, что каждый используется для своей определённой глубины цвета.

Итак, все основные нюансы мы обсудили. Сканируем выбранную книгу, а после окончания переходим ко второму этапу: ретушь и облагораживание. Впрочем, об этом уже в следующей части статьи.

Ссылка на основную публикацию
Статьи c упоминанием слов:
Adblock
detector