Сканирование книг-2

Тема в разделе "Поговорим о том, о сём", создана пользователем lukoie, 19 янв 2013.

  1. lukoie

    lukoie Член клуба

    Уже была старая тема "сканирование книг", так что я создам вторую тему "сканироваие книг2", в которой изложу свой взгляд на этот вопрос.

    Цель этой статьи в том, чтобы поделиться опытом по сканированию книг, как это делаю я, может кому-то информация окажется в итоге полезной.

    1. ПОДГОТОВКА
    Прежде чем браться за сканирование книги(будем считать что сканер у вас имеется, и оцифровка будет проходить не при помощи фотоаппатара, хотя я иногда и такие фокусы откалываю - зато быстрее - книгу за минут 15 можно отщелкать. К слову, если уж было сделано фотиком - то в помощь пригодится программа Cam to Scan для исправления фоток текста, чтобы больше походили на сканированные), нужно провести предварительную подготовку. Во первых, это касается софта(он должен быть прост в использовании, удобен, желательно бесплатен), продуманного расположения файлов(чтобы через месяц не чезать затылок куда же сканировалась книга, и как назывались файлы). Важно также аккуратно и начисто протереть стекло перед сканированием - лучше заранее избавиться от волосков и песчинок, чем потом редактировать множество файлов, уж поверьте опыту, минута протирания избавит от часа лишних редактирований! Так что если у вас длинные волосы или борода - следите чтобы стекло оставалось чистым - при массовом сканировании сотен страниц лечше выбрать такую позу, чтобы ничего не сыпалось на стекло сканера.

    Итак, подготовили книгу, сканер, создали грамотную систематику для книг (у меня книги в директории "j:\!BOOKS", и далее с систематиским рубрикатором), теперь нужно выбрать программу для сканрования. Изучите свою программу на предмет массового сканирования, и если там такой функции не наблюдается(например в стандартной программе от Epson ее нет), то рекомендую потратить еще несколько минут на предварительную подготовку, которая вам в итоге сохранит часы времени.
    Итак, речь идет об использовании Линукса. Проще всего скачать программу Unetbootin(мегабайт около 5 занимает), вставить флешку, и выбрать из списка любой дистрибутив Линукса! Он сам скачается и установится прямо на флешку. У меня это занимает минут 10-15. Скорость зависит от качества интернета, откуда программа скачает зачастую около 700Мб, если нормальный дистрибутив, например Дебиан или Федора. Дальше нужно просто загрузить компьютер с флешки, или SD-карты - и вы в Линуксе! Лично я пользуюсь отдельным нетбуком для этих целей, SD и Федорой. Далее вставляем в usb порт шланг сканера - и он уже готов к рабте - не нужно искать/ставить/настраивать драйвера. Достаточно запустить программу по умолчанию для сканера Simple Scan
    Вот как выглядит ее интерфейс:
    [​IMG]
    На скриншоте выбран пункт, который нам и нужен - массовое сканирование. Выбрав этот пункт сканер начнет сканировать без остановок раз за разом, нам нужно будет только успевать переворчивать страницы.
    Таким образом я сканирую 50 страниц за 7 минут! Несложно посчитать что обычная 400страничная книга будет отсканирована всего за час! Это при условии максимального качества в 300dpi. А ведь при более низком качестве(150, 72) скорость будет еще быстрее, правда и качество тогда будет хуже, но если книга будет оцифровываться без изображений, и только распознаваться на OCR - этого может быть достаточно, зато даст экономию лишних 10-15 минут.

    Теперь весьма прогрессивный пункт, для еще бОльшего ускорения работы - создаем виртульный диск. Визуально у нас появится отдельный диск, вроде винчестера, как диск С:\ или D:\, на самом деле данные будут храниться прямо в оперативной памяти. Это называется RAM-drive. Это непостоянное хранилище данных - после перезагрузки данные на таком диске не сохраняются(хотя есть возможность сделать автомаунт исошки, и даже автосохранение периодические и при лог-ауте, но это отдельная тема).
    Итак, если у нас достаточно памяти, то часть ее можно использовать как временный диск, для обраттки изображений - т.к. файлы не будут писаться на винчестер, а будут обрабатываться прямо в памяти, то и скорость работы будет максимальной!
    Из десятка протестированных и описаных мною программ для создания Рам-дисков я советую ImDisk. Также неплохо себя показала программа OSFMount, ведь она может работать и без установки, и как виртуальный диск, подключая iso образы дисков.
    Небольшой совет - сразу запишите на такой Рам-диск портабельную версию XnView - чтобы она не стала предательски писать кеш и превьюшки изображений к себе на винчестер, тем самым погубив преимущество работы на рам-диске.
    Не забудьте что создав диск вы тем самым забираете часть памяти, потому если у вас, например, 4Гб оперативной памяти, то создав 1Гб диск вы тем самым сократите себе память на гигабайт. Потому, если у вас всего 1Гб памяти - то рам-диск вам скорей всего не светит. Разве что 100-200 мегабайтный, для небольших обьемов фото к обработке.

    2. ПРОГРАММЫ
    Отсканированые страницы готовы, но их еще нужно привести к человеческому виду.
    Мы можем использовать программы, предназначенные специально для этой цели: программа откорректирует размеры, разрешение, обрежет поля, поправит наклон страниц, уберет тени и артефакты. Вот две программы для этих целей: Scan Tailor и ScanKromsator.
    Для полу-автоматичской обратотки нам наилучшим образом подходит программа XnView. Она есть для многих платформ, но версию MP лучше не использовать - ради кроссплатформенности автор пожертвовал функционалом.
    Есть и другие удобные программы для работы с изображениями, есть даже Фотошоп, но для наших целей наиболее подходит именно XnView - бесплатный, легковесный и очень многофункциональный.

    3. ПОВОРОТ СТРАНИЦ
    Итак, если сканы были сделаны под 90 градусным углом - выделяем все такие файлы, и жмем Ctrl Shift R или Ctrl Shift L для поворота всех выделенных файлов вправо или влево соответственно.

    4. ОБРЕЗКА
    Теперь важный момент - нужно создать новую папку, например с именем 01, и туда скопировать все наши файлы - это бекап.
    Переходим к обрезке. Откроем любое из изображений, и выделим часть, которая будет рабочей областью. Теперь нам надо записать координаты левой верхней точки(показывается в статусной строке при наведении мыши на нужную точку картинки). Обрезаем картинку по нашему выделению(Shift X), и записываем кол-во пикселей по ширине и высоте.
    Теперь не сохраняясь выделяем снова все файлы, жмем Ctrl U (Tools/batch processing), и там в закладке Transformation выбираем пункт Crop, в котором вписываем запомненные координаты и размеры в нужные поля. Жмем "Go", и все 400 страниц книги у нас обрезаны и подогнаны под один размер!

    Снова создаем папку, теперь с именем "02", и копируем туда результат - это еще один промежуточный бекап.

    5. РЕГУЛИРОВКА КОНТРАСТА И ЯРКОСТИ
    Открываем один среднестатистический файл, и в меню Image/Adjust/Brightnest-Contrast устанавливаем подходящие параметры. Например по 20, как у меня зачастую оптимально получается. Запоминаем показатели, и снова выделяем все файлы, и идем в Tools/batch processing(Ctrl U), и там в закладке Transformation выбираем пункт Brightnest и Contrast, в которых вписываем наши показатели. Нажатием "Go" все файлы будут откорректированы по яркости и контрастности.

    Если нужно корректировать также пиксельность - то можно слегка пройтись фильтрами. Алгоритм такой же: смотрим эффект фильтра на одном скане, и если устраивает - запоминаем показатели и устанавливаем такие же в массовом редактировании.

    Снова создаем папку, назвав ее "03", и копируем туда очередной бекап.

    6. ТЕНЬ ОТ СГИБА
    Теперь открываем любой из файлов, и выделяем тень по центру по всей высоте. Переносим выделение на любой полностью белый участок изображения, и жмем Shitf X - обрезав изображение. Сохраняем эту картинку под новым именем "сохранить как...", называем ее как-то, например "patch.jpg"
    Теперь снова выделяем все файлы, снова Tools/batch processing(Ctrl U), и там в закладке Transformation выбираем пункт "Watermark", указываем в списке наш файл patch.jpg, и в настройках ставим "по центру". Нажав Go мы применим эту "заплатку" ко всем файлам, прикрыв тень от сгиба белой заплаткой.

    7. ПОПРАВКИ
    Вот и все - все файлы обработаны. Но если вдруг где-то текст съехал при сканировании, то заплатка могла налезть на текст. Потому нам могут пригодиться те самые бекапы, которые мы делали! Порой мне пригождаются бекапы даже из первой папки!

    8. РАЗМЕРЫ ФАЙЛОВ
    Отсканированная книга на 400 страниц занимает порядка 450-500Мб. Например, у меня сейчас книга на 447 страниц занимает 495Мб.
    Уже на этапе обрезки размер стал 132Мб. Окончательная ПДФка высокого качества - 150Мб. Ее уже можно жать средствами ПДФ до 80Мб, или каким-нибудь ФайнРидером до 5-10Мб.
    Если смотреть размеры отдельных файлов, то первичные сканы имеют размер около 1,5-2МБ, после обрезки размер уменьшается в 3 раза, и оконачтельная обработка уменьшает еще на процентов 30, то есть например 2MB / 800kb / 600kb на страницу.

    9. ПРИМЕРЫ СТРАНИЦ ИЗ ВЫШЕОПИСАННОГО АЛГОРИТМА ОБРАБОТКИ
    [​IMG]
    Первый столбец - это файл, каким мы его получили со сканера, 2 - обрезка, 3 - регулировка, 4 - убираем тень.
    Кстати, картинка с примерами тоже делается в XnView очень просто - выделив нужные файлы жмем на создание панорамного изображения.

    Если вы создавали виртуальный Рам-диск, то на пакетную обработку у вас уйдет минут 10-15. Если же обработка проходит на файлах на винчестере, или что еще хуже - на флешке, то время ожидания нужно умножить в несколько раз. Зато можно будет сходить попить чаю.

    10. СОЗДАНИЕ ФАЙЛА КНИГИ
    Итак, файлы готовы, осталось только создать саму электронную книгу.
    Для DJVU все просто - идем на официальный сайт с программами.
    А вот если нужно создать pdf, то тут есть множество способов, совершенно разных - платные\бесплатные, програмные\онлайновые, специализированные или просто с побочной функцией. Так, к примеру, вчера я тестировал программу для конвертации видео, в которой зачем-то были также функции работы с pdf - конвертация, обьединение и разбивка.
    Файнридер может сделать пдфку с картинок. Если установлен виртуальный пдф-принтер - то картинки можно послать на печать на такой принтер, и получить на выходе пдфку. Можно взять самую специализированную программу - Adobe Acrobat (не Reader!) и прямо в ней создать пдфку из картинок. Или создать файл из всех страниц при помощи бесплатной и маленькой программы IrfanView, которая, к слову, многими рассматривается как прямой конкурент XnView, на уровне как TotalCommander и FAR. Платные ломанные специализированные програмы, вроде "JPG To PDF Converter" не всегда показывают оптимальный результат.
    Вопрос компрессии я не рассматриваю потому что это вопрос личный, и далеко не в каждом случае нужно терять качество ради минимизации обьема. Мак и обработку и сборку книги в альтернативных ОС(Линукс, МакОс, и т.п.) тоже пока оставлю в стороне, это совсем отдельная тема для разговора.

    Добавлено спустя 3 минуты 19 секунд:
    11. ВОДЯНОЙ ЗНАК
    В первой теме "сканирование книг" также возникал вопрос о том, как сделать на каждой странице водяной знак, и был совет использовать Фотошоп и экшны.
    Мы в 6-м шаге данного руководства, когда убирали тень, использовали функцию программы для добавления водяных знаков. Только мы накладывали непрозрачный белый прямоугольник. Так что и сами водяные знаки мы можем вполне комфортно добавить в этой же программе, просто создав картинку водяного знака, и наложив с указанием степени прозрачности по вкусу - и нам не нужны дополнительно ни другие программы, ни жирные платные неповоротливые комбайны вроде Фотошопа(прошу заметить что я сам дизайнер со стажем лет 15, и естественно работаю постоянно именно в Фотошопе, потому утверждаю что в текущей задаче он будет избыточен!).
     
    alex9890, Div и Sokol нравится это.
  2. lukoie

    lukoie Член клуба

  3. iRuslan

    iRuslan Член клуба

     
  4. lukoie

    lukoie Член клуба

    Для справки: массовое сканирование(чтобы быстро посканировать много страниц за один присест, не жмакая каждый раз на кнопки) называется ADF - Automatic Document Feed. Это если понадобиться гуглить на эту тему - как чтобы автоматически сканило без остановок.

    Вчера делал одну раздачу: посканировал все страницы за один заход, в XnView прогнал изменение размера, свел все к одному размеру(это смотрится в просмотре файлов, только режим "таблица" - там есть столбец размеров). Ну и второй прогон сделал с яркость и контраст. (Надо не забывать бекапить картинки на каждом шагу - чтобы можно было всстановиться если что пошло не так в атоматизации, и проверять промежуточные результаты).
    Готовые картинки свел сейчас акробатом. Но можно и самим XnView делать пдфку, кстати (меню "Создать/Многостраничный файл" - там выбрать формат pdf).
    На скан этого каталога ушло... 100 страниц, то есть 50 прогонов, по секунд 15(установки разрешения могут менять скорость) 50*15/60=~15 минут на сканирование. Ну и потом автоматический прогон по размерам и яркость-контраст - пока сходил налил чаю, уже было готово - зависит от проца и оперативки. Ну и сделать пдфку ушло минут 5 - запустить, открыть диалог сведения файлов, и указать куда созранять - минута на все, и 4 минуты на то чтобы оно обработало и сохранило.
    Как то так.

    Добавлено спустя 18 часов 51 минуту 56 секунд:
    Еще один "секретик" - если хотите сделать чтобы скан в итоге был похож на книжку, то есть по центру чтобы было не белое поле, а иллюзия сгиба, только чтобы было красиво, с тенькамии и одинаково - берите программу PhotoScape. Можно конечно и XnView пригрузить и добиться того же эффекта, но там это чуть муторней будет. В ФотоСкейпе функция "рамки", а именно ею делается сгиб, как ни странно, работает очень гармонично и шустро.
    Как то типа вот так:
    [​IMG]
    На входе была картинка примерно такая же как выше в четвертой колонке. Скругление углов и темную рамку можно не применять конечно. Для этого просто убрать галочку обозначенную правой нижней стрелочкой. И будет просто только красивый эффект сгиба страниц, приятно-для-глаза-одинаковый у каждого листа. Одним кликом применяем хоть к сотням сканов.
    ЗЫЖ не смотрите что там обрезало текст немного - я просто показывал как сделать эффект сгиба, поля не настраивал.
     
  5. urban41

    urban41 Член клуба

    Какие модели сканеров лучше использовать для сканирования книг?
     
  6. iRuslan

    iRuslan Член клуба

     
  7. lukoie

    lukoie Член клуба

    Для КНИГ - да, конечно, Вам же главное ч/б текст,а не высокое качество графики.
    Правда меня смущает что в описании написано что Линукс не поддерживается - видимо у Вас может не получиться трюк с массовым сканированием, который я описывал, и придется жать кнопку на каждой странице.

    у меня вот такие сканеры(первый достаточно продвинутый для дизайнерской работы, а второй - МФУ просто ради цветного струйника, когда надо что-то быстро печатнуть):
    http://market.yandex.ru/model.xml?model ... &hid=91112
    http://market.yandex.ru/model.xml?model ... hid=138608
    Особой разницы на книгах там не будет, это разве что когда фотки сканировать - уже можно почувствовать разницу в качестве.


    В характеристиках смотрите на разрешение сканирования, а не интерполлированное разрешение. К примеру, у Epson Perfection V37 разрешение в маркете написано 4800x9600 dpi (правильная цифра - первая, оптическое разрешение. Вторая цифра(механическое) это вроде что железо может вытянуть, но не передать, то есть сканер вытянет только 4800дпи, остальное - в основном для маркетинга). А на коробке скорей всего будет написано вообще 12800x12800 dpi. Это сканер программно увеличивает. Но оно качества не даст, а даже наоборот - если бы сканер выдал реальную картинку, как ее сняла оптика, и человек в Фотошопе ее вытянул на более высокое разрешение - то картинка из Фотошопа была бы лучшего качества, чем картинка увеличенная програмно софтом сканера. Это из за методов и режимов для манипуляций с графикой - у ФШ они прогрессивней и продвинутей.
    А остальные параметры для сканера - это рюшечки. Сканеры сейчас уже вышли на примерно одинаковые показатели, и особо расти им уже некуда. Вот и допиливают напильником. В Epson Perfection V37 например сделали крышку раскрывающейся на 180 градусов, типа чтобы книгу можно было ложить удобно. Также добавили глубину сканирования, чтобы трехмерные объекты(например как обычно попу у американцев) мог нормально сканировать.
    Также можно крутить носом на скорость сканирования(у V37 естьтехнология когда он не прогревается подолгу) и шум, качество пластика. А, ну и да - если надо 64-битность или если нужна поддержка Линукса(и есть ли драйвера (а ТУТ для V37 например дуля))! Также лучше если у сканера датчик CCD а не CIS. Качество лучше, но они дороже стоят. Можно еще смотреть интерфейс связи с компом - например по FireWire быстрей работает чем по USB(лучше если четко указано что usb2), а скази - вообще шикарно, но цены на такие сканеры запредельные.
    В общем, большинство параметров просто опытным путем выявляют, чтобы все устраивало и часто отдают преимущество какой-то марке. Например у меня лет 10 назад был Mustek и мне понравилось качество, потому при выборе следующего сканера я бы уже смотрел на эту марку в первую очередь. Потому тут как кому нравится, да и внешний вид зачастую тоже немаловажную роль играет, как во втором моем сканере - только из за строгого дизайна брал когда нужен был струйник чтоб разную пургу печатать.
     
  8. pavlusha

    pavlusha Член клуба

    Ай да lukoie! Ай да молодец. Некоторые бы умники- инфобизнесмены из этих знаний целый инфопродукт могли бы сделать, а тут все бесплатно и очень доступно! Спасибо огроменнное!
     
  9. And24

    And24 Член клуба

    Сайт программы походу загнулся. Не поделится кто нибудь этой программой (полной версией) из закромов?
     
  10. Belcantante

    Belcantante Складчик

    http://pixelbrush.ru/2010/12/13/cam-to-scan-v10.html
     
    soundie и And24 нравится это.

Поделиться этой страницей