Правовые аспекты оцифровки книг сообщение

Обновлено: 06.07.2024

На прошлой неделе поучаствовал в конференции по авторскому праву, проходившей в рамках Московской международной книжной ярмарки. Несмотря на попытки заявить тему шире, охватить вопросы использования произведений в Интернете или вопросы регулирования или регулирования вопросов договоров в ГК, все обсуждение свелось к одному вопросу: разрешению в проекте ГК библиотекам оцифровывать книги. Дискуссия получилась жесткой - издатели обвиняли в намерении разорить их. Напомню, проект разрешает библиотеке, купившей бумажную книгу, сделать цифровую копию (в единичном экземпляре) издания, имеющего исключительно научное и образовательное значение для использования в помещении библиотеки.

При этом меня не оставляло ощущение, что издательства невнимательно читали текст нормы, поскольку рассуждения уходили в область выкладывания произведения в Интернет библиотеками и т.п., либо к созданию библиотечной сети. Хотя в действительности ни сетевое использование, ни выкладывание в Интернет проект не разрешает - т.к. в этом случае будут возникать уже новые экземпляры, либо осуществляться доведение до всеобщего сведения и т.д. (а проект разрешает лишь разовое воспроизведение).

Интересно также, что, по словам недовольных издательств, они узнали о проекте изменений в ГК только сейчас (хотя я и год, и два года назад на такой же книжной ярмарке призывал их участвовать в работе над проектом), да и с Российским книжным союзом обсуждение шло очень плотно. Вряд ли можно серьезно воспринимать и заявление о том, что, вместо того, чтобы обсуждать проект с Российским книжным союзом, я должен был написать письмо персонально в каждое издательство :)

В общем, дискуссия получилась довольно странной, если не сказать больше. Можно ли считать, что разрешение библиотеке сделать для использования в читальном зале копию имеющейся у нее книги создает реальную угрозу издательству? Должны ли издатели учитывать интересы общества? Приведет ли это к "нежеланию ученых и преподавателей вузов готовить для издания новые учебники и научные труды, реальному и очень скорому исчезновению самой отрасли научного и учебного книгоиздания" и т.д., как написали издатели в своем открытом письме Президенту? Чем-то это напоминает старую историю про мальчика, который кричал "Волки!". Впрочем, работать над текстом законопроекта, конечно, нужно, другое дело, что пытаясь обеспечить баланс интересов, полагаться на такие письма не всегда стоит.

В мировой практике осуществления проектов оцифровки объектов историко-культурного наследия (архивных фондов в том числе) существует апробированный способ, предполагающий выработку и применение единых международных (национальных) стандартов комплексной организации проектов.

Перечисленные в Руководстве вопросы полностью совпадают с целями создания настоящих Методических рекомендаций, что подтверждает мысль о том, что проблемы разработки нормативно-методической документации, регулирующей процессы перевода документов в электронный формат, являются типовыми и для разных стран, и для разных фондодержателей (архивов, библиотек и музеев).

Достоверность оцифрованных документов, влияющая на возможность их использования в качестве доказательств и на их доказательную силу,

Доступность оцифрованных документов в течение всего времени, пока в них есть необходимость;

Стратегии, способствующие созданию оцифрованных документов, пригодных для долговременного хранения;

Управление неэлектронными документами-источниками после их оцифровки.

Другим известным проектом, представленным в сети, является семиязычный (арабский, китайский, английский, французский, португальский, русский и испанский языки) проект Mировая цифровая библиотека (WDL) [16] , разработанный рабочей группой Библиотеки Конгресса США при содействии многих учреждений-партнеров из разных стран, поддержке Организация Объединенных Наций по вопросам образования, науки и культуры (ЮНЕСКО) и финансовой поддержке со стороны целого ряда компаний и частных фондов. На момент запуска Mировой цифровой библиотеки в апреле 2009 г. ее контент состоял из информации, предоставленной 26 учреждениями и 19 странами. Несмотря на то, что WDL является детищем Библиотеки Конгресса США – признанного лидера в проектах оцифровки разных форм историко-культурного наследия [17] , подходы к формированию ее контента практически те же, что и в проекте Европеана.

Зримым воплощением этой тенденции стали осуществляемые различными общественными, научными и учебными организациями стран Европы и Америки [21] проекты по созданию тематических исторических порталов, представляющих базы данных с описанием архивных, библиотечных документов и музейных артефактов, а также электронных образов этих исторических источников.

Особняком среди проектов оцифровки фондов стоят работы, выполняемые в Библиотеке и Архиве Ватикана [26] . Эти организации весьма серьезно подходят к проблеме обеспечения сохранности подлинников и адекватности электронной копии подлиннику исторического источника, однако не публикуют в открытых источниках информацию об управляющих документах, разработанных в ходе реализации проектов [27] .

Несомненный интерес представляет опыт оцифровки архивных и библиотечных фондов, имеющийся у Японского центра Азиатских Исторических Записей (Japan Center for Asian Historical Records (JACAR)). Этот центр специализируется на сканировании и представлении в открытом доступе архивных документов по истории международных отношений (период середины XIX в. до начала Второй мировой войны) [28] . В частности, по истории Русско-японской войны 1905 г. [29]

Заметный шаг в вопросах оцифровки архивных документов сделан в последние годы в Индии [30] .

Сложность осуществления такого подхода, разработки, принятия и поддержания в актуальном состоянии нормативно-методических требований, во многом связана с пониманием содержания каждого из этапов этих процессов и существа проблем, возникающих в ходе их реализации.

1.2. Изучение опыта оцифровки (сканирования) документов Архивного фонда
в архивных учреждениях Российской Федерации

В рамках Ведомственной программы информатизации Федерального архивного агентства и подведомственных ему учреждений на 2011–2020 гг. [31] также запланировано осуществление работ по созданию комплекса нормативно-методических документов по регулированию процессов оцифровки архивных документов и управлению электронным контентом.

Полученные сведения и сделанные на их основе выводы находятся в фарватере общих тенденций, которые сложились как в отечественной, так и в зарубежной практике оцифровки фондов архивов, библиотек, музеев и подтверждают (несмотря на попытки отдельных организаций выработать собственные инструктивные положения [32] ) отсутствие единых подходов к процессу оцифровки архивных собраний.

Это ведет к таким серьезным проблемам, как необходимость проведения неоднократной оцифровки документов (что наносит вред сохранности подлинников); невозможность соотнесения и интеграции результатов проектов оцифровки, осуществленных в различных учреждениях, хранящих документы архивного фонда, и, в конечном итоге, невозможность полномасштабного использования электронных копий архивных документов. Совокупность обозначенных проблем, с одной стороны, ставит под сомнение возможность постановки задачи о тотальной и полномасштабной оцифровке подлинников архивных документов в учреждениях, хранящих документы архивного фонда страны, а с другой – настоятельно требует разработки нормативно-методических актов.

[32] Перечень нормативно-методических актов, разработанных и действующих на 01.09.2012 в государственных архивах субъектов федерации, и посвященных регулированию процессов оцифровки документов архивного фонда, приведен в Приложении.

Как в России оцифровывают запасники библиотек и архивов

Как устроено законодательство об оцифровке книг, сколько стоит оцифровка одной книги и в каком состоянии находятся электронные фонды основных российских библиотек и архивов.

Законодательство

В результате в Госдуму закон был внесен в апреле 2012 года и подписан только спустя два года спустя.

В документ были внесены изменения, согласно которым библиотеки получили право оцифровывать лишь те книги, которые не переиздавались на территории Российской Федерации в последние десять лет. Также библиотекам было запрещено обмениваться электронными копиями книг. Закон вступил в силу с 1 октября 2014-го. А согласно майским указам президента, не менее 10% издаваемых в России книг должны включаться в Национальную электронную библиотеку.


Разрушенное пожаром здание библиотеки ИНИОН

Фото: Павел Головкин / AP / Scanpix

После пожара в ИНИОН РАН правительство России начало подготовку законопроекта об обязательных электронных копиях новых печатных изданий. Поправки могут быть рассмотрены до 15 февраля, после чего их направят в Госдуму. Сейчас издательства направляют по одному бумажному экземпляру в 16 российских библиотек. Новый закон сокращает число этих экземпляров до шести. Взамен издатели должны будут передавать еще по три электронных копии изданий на материальном носителе в Российскую государственную библиотеку, Российскую национальную библиотеку и Президентскую библиотеку им. Бориса Ельцина.

Оцифровка

В первую очередь библиотеки сканируют каталоги, чтобы у читателей была возможность удаленно ознакомиться со справочным аппаратом.

Затраты

В федеральном бюджете не предусмотрено отдельной статьи расходов, посвященной исключительно сканированию изданий. Однако в документе указано, что на подключение библиотек к интернету и оцифровку книг в 2015–2017-м из федерального бюджета будет выделено по 80 миллионов рублей в год. В среднем библиотеки получают около полутора миллионов рублей в год. Так, на оцифровку Российской государственной библиотеке выделятся пять миллионов, но эта сумма не покрывает затраты, поэтому разница компенсируется за счет внебюджетных средств. Библиотека иностранной литературы получила в прошлом году два миллиона, но эти средства предназначены на закупку оборудования, а работы по оцифровке оформляются как штатные задания сотрудников. Библиотека им. Маяковского в Петербурге получает ежегодно от миллиона до 1 миллиона 200 тысяч рублей. По словам директора учреждения Зои Чаловой, этого хватает на оцифровку 500–600 книг.

Технология


Сканирование книг в Президентской библиотеке им. Бориса Ельцина

Фото: Петр Ковалев / Интерпресс / PhotoXPress

Оцифровка осуществляется с помощью специальных сканеров. Самые простые — планшетные, используются в городских библиотеках. Крупные библиотеки закупают планетарные сканеры, оснащенные V-образной колыбелью, куда кладется книга. Подобная форма позволяет не раскрывать книгу на 180 градусов и, таким образом, свести к минимуму вредное воздействие на издание. В сложных случаях библиотеки обращаются к сторонним организациям, которые оцифровывают книги с помощью роботизированных сканеров, способных самостоятельно переворачивать страницы. Подобные сканеры могут работать до 24 часов в сутки, сканируя до трех тысяч страниц в час.

Библиотеки: сколько оцифровано

Российская государственная библиотека

Объем фондов — 45,5 миллионов единиц хранения, из них 300 тысяч редких книг и 500 тысяч рукописей. Оцифровано около миллиона изданий, из них 150 тысяч — это рукописи и редкие книги.

Оцифровка каталогов РГБ началась еще в конце 1980-х годов за счет гранта Евросоюза. К оцифровке документов сотрудники библиотеки приступили десять лет спустя. После вступления в силу поправок к Гражданскому кодексу РГБ запланировала оцифровать 50 тысяч изданий, по тысяче книг в месяц.

Национальная электронная библиотека

Проект возник в 2004 году. В 2014-м портал НЭБ объединил ресурсы шести федеральных и 27 региональных библиотек. Также в 2014 году были оцифрованы около 10 тысяч книг. Сейчас на сайте НЭБ доступны около 1 миллиона 700 тысяч книг.

Президентская библиотека им. Бориса Ельцина

Задумана как крупнейшее национальное электронное хранилище документов. Фонд библиотеки полностью оцифрован и насчитывает 380 тысяч единиц хранения, из них 150 тысяч выставлены на портале, отмечает директор по общественным связям библиотеки Валентин Сидорин. В 2014-м было отсканировано 70 тысяч единиц хранения. Оцифровка проходит не только в Петербурге, где располагается основное здание библиотеки, но и в региональных отделениях (всего 120 отделений в 62 субъектах Федерации).

Российская национальная библиотека


Российская Национальная Библиотека

Фото: Елена Пальм / Интерпресс / PhotoXPress

Российская государственная библиотека искусств

Фонд составляет два миллиона единиц хранения, оцифровано 17,5 тысяч документов.

Государственная публичная историческая библиотека

Всероссийская государственная библиотека иностранной литературы им. М. И. Рудомино

Городские библиотеки

Городские библиотеки также занимаются оцифровкой книг, однако делают это куда в меньших масштабах. Так, Центральная городская публичная библиотека им. В. В. Маяковского оцифровала весь фонд редкой литературы — шесть тысяч экземпляров (общий фонд библиотеки составляет 2,5 миллиона единиц хранения). Оцифровка началась четыре года назад, сканируются уникальные книги, представляющие интерес с точки зрения истории города, например, книги блокадного Петербурга, говорит директор библиотеки Зоя Чалова.

Объем сканирования в библиотеках Москвы совсем скромен. В библиотеке им. И. С. Тургенева из 125 тысяч единиц хранения оцифровано лишь 12, в библиотеке им. Ф. М. Достоевского из 37 тысяч единиц — около 100. По словам директора библиотеки им. Достоевского Алексея Бородкина, сканируется фонд редких книг (хотя по его собственному признанию, редкими эти издания можно назвать весьма условно): это ветхие книги конца XIX века, которые нельзя выдать читателям на руки. Библиотеки Маяковского и Достоевского оснащены планетарными сканерами.

Архивы: сколько оцифровано

Архивы в первую очередь занимаются оцифровкой описей — справочного аппарата, который позволяет читателям разобраться, какие документы находятся в различных делах. Архивы федерального значения отсканировали большую часть описей. Полностью завершили этот процесс ГАРФ и Российский государственный архив военно-морского флота в Петербурге. По данным Росархива, на 1 января 2014 года было оцифровано 51 827 тысяч заголовков дел — в основном, это описи и какое-то количество документов, но раздельной статистики у ведомства нет. За 2014-й федеральные архивы отсканировали 2,8 миллиона описей. По остальным архивам официальных данных пока нет. Сбор статистики затруднен еще и в связи с тем, что одно дело может насчитывать как один лист, так и несколько тысяч, что не позволяет с уверенностью сказать, сколько именно листов переведены в электронный формат.


Сканирование документов в Ценральном государственном архиве Санкт-Петербурга

Фото: Елена Пальм / Интерпресс / PhotoXPress

В архивах сетуют, что для оцифровки самих документов им не хватает финансирования, поэтому нередко сканирование определенных коллекций проводится в рамках проектов или на гранты. Так, к празднованию 70-летия Победы РГАСПИ должен оцифровать материалы госкомитета обороны в период Великой отечественной войны. Также оцифровываются самые востребованные документы.

Общий фонд архивов России составляет более 609 миллионов единиц хранения. Для сохранения документов вместо оцифровки чаще применяется другой метод — микрофильмирование, при котором документы фотографируются и отпечатываются на микрофильмах и микрофишах. Для последующего просмотра требуется специальная аппаратура.

Государственный архив Российской Федерации

Из шести миллионов единиц хранения оцифрованы 30 тысяч. Среди них фонды совета народных комиссаров, фонд А. И. Деникина, документы юриста А. Ф. Кони. Также оцифрован архив фондов Советской военной администрации в Германии за 1945–49 годы: это около 9700 описаний рассекреченных дел, более 210 тысяч заголовков документов и около 1,1 миллиона оцифрованных листов дел.

Российский государственный архив литературы и искусства

Оцифровка архива проводится с 2003 года, финансирование из бюджета учреждение начало получать лишь несколько лет назад, отмечает директор РГАЛИ Татьяна Горяева. До этого момента архив получал гранты на сканирование. Сейчас средства выделяются на оцифровку описей, на полнотекстовое сканирование и на создание электронного каталога. За последний год архив получил около миллиона рублей.

Фонд — 3,5 миллиона единиц хранения. Оцифровано 75% описей и половина всех документов. Так, полностью оцифрован изобразительный фонд Сергея Эйзенштейна, это более пяти тысяч рисунков.

Российский государственный архив древних актов

По существующим в большинстве стран законам, книги являются объектами одновременно авторского и имущественного права. Имущественное право — это право на распространение и продажу книги, а также право на любое копирование или даже бесплатное распространение через интернет. Автор книги имеет особые права, такие, как требовать признания авторства или заключать контракты с издателями. Если данная книга является объектом имущественного права, это означает, что её нельзя копировать или вообще как-либо распространять (даже бесплатно) без разрешения правообладателя.

На каждой книге среди выходных данных указаны обладатели имущественного права и, соответственно, ограничения на распространение книги. Однако имущественное право на книги имеет конечный срок давности, — это обычно 50 лет (в некоторых странах 75 лет) после смерти автора и 75 лет (в США — 95 лет) со времени публикации книги. В России и других странах бывшего СССР имеет место особая ситуация с книгами, вышедшими до 1971 года, поскольку лишь в 1971 году СССР вступил в международную конвенцию по авторским правам. Поэтому книги, вышедшие в СССР до 1971 года, как правило (есть и исключения), не являются больше объектами имущественного права. Книги, изданные в США до 1924 года включительно, или в Европе до 1932 года включительно, тоже, как правило, уже больше не являются объектами имущественного права.

Законной является оцифровка книг, права на которые истекли, или книг, авторы и издатели которых разрешают их свободное распространение через интернет или другим образом (например, если автор выложил на интернет-странице электронную книгу после того, как издательство вернуло ему все имущественные права). Учтите, что законом запрещается оцифровывать или копировать (в том числе через бесплатные или платные интернет-сайты) электронные книги, являющиеся в настоящее время объектами имущественного права. Хранение таких электронных книг на вашем личном компьютере уже является копированием и также запрещено, за исключением того случая, если вы сами купили эту книгу у издательства в электронном виде. Даже если у вас есть купленный вами бумажный экземпляр какой-либо книги, защищенной имущественным правом, закон запрещает вам изготавливать оцифрованную версию этой книги или хранить на своём компьютере где-либо взятую оцифрованную версию, если только вы сами не купили электронную книгу у издательства, дополнительно к бумажному экземпляру.

Мы призываем вас знать и соблюдать законы той страны, где вы живете, и оцифровывать только материалы, не являющиеся объектами имущественных прав. Данное руководство по оцифровке книг имеет чисто технический характер и не может рассматриваться как инструкция по нарушению закона. Ссылки на интернет-источники предоставляются только в целях ознакомления с техникой оцифровки.

Формат DJVU позволяет сжимать растровое изображение несколько лучше, чем PDF, просматривается несколько быстрее, а также более удобен в технической обработке. Например, есть простые и бесплатные программные средства для редактирования гиперлинков, закладок и OCR-слоя в DJVU, но таких средств нет для PDF. Также, файлы DJVU более устойчивы к сбоям, чем PDF, и менее зависимы от версии просмотрщика, поскольку формат DJVU гораздо проще. Недостаток DJVU: возможность внести искажения при сильном сжатии и большое количество разных режимов сжатия приводят к тому, что сделать некачественный файл начинающему пользователю довольно легко. Также, DJVU файлы (по теперешнему стандарту) позволяют делать гиперлинки на другую страницу того же документа, но не на другой файл, не на сайт интернета, и не на выбранное место на данной странице (это можно делать в PDF). Однако формат DJVU несложен, документирован и содержит гибкий механизм добавления метаинформации: к каждой странице можно добавлять произвольную информацию в виде нескольких пар key=value. Поэтому в принципе можно сделать всё это и многое другое (например проверку md5sum или криптографическую подпись) средствами формата DJVU.

Главное достоинство формата PDF — широкая совместимость (у всех есть бесплатный Acrobat Reader или его аналоги) и тот факт, что большинство людей пока ничего не знают о формате DJVU. Однако, надо заметить, что программы для просмотра DJVU тоже бесплатные и требуют гораздо меньших ресурсов компьютера, чем Acrobat Reader. Недостатки PDF в основном технические, но они существенны. Главный недостаток — невозможность определить разрешение растра, находящегося внутри PDF. Это приводит к сильным потерям в качестве изображения при попытках улучшить качество неоптимально сделанного растрового PDF файла. Неоптимальные PDF файлы могут иметь размеры 100—200 КБ на страницу и даже более. Оптимальный растровый PDF тратит от 10 до 20 КБ на страницу, что примерно на 30—50 % больше, чем DJVU. Другие недостатки формата PDF — невозможность эффективно редактировать файлы и чувствительность к сбоям при передаче файлов. Сбойный файл часто невозможно просмотреть даже частично. К техническим недостаткам формата PDF относится и то, что иногда не получается произвести оптимизацию размера файла, которая в принципе была бы возможна, если бы формат PDF был лучше спроектирован.

1. Чтобы определить разрешение растра, находящегося внутри готового PDF, можно воспользоваться функционалом Adobe Acrobat (описываю по версии 5.0). Извлекаем изображения из pdf-файла: File -> Export -> Extract Images As -> TIFF Files. В разделе Settings выбрать Colorspace: Determine Automatically и Resolution: Determine Automatically.

Проиллюстрируем соотношение размеров PDF и DJVU файлов. Перевод в формат DJVU типичной отсканированной издательством статьи из журнала Physical Review (у них высокое разрешение и хорошее качество сканирования) уменьшает размер издательского PDF файла в 10 раз. Во многих случаях перевод из векторного PDF в DJVU, даже с высоким качеством изображения и сохранением текста и навигации, всё равно даёт файл DJVU меньшего размера, чем исходный PDF. Это очень часто относится к файлам, созданным такими программами, как Quark Express, Acrobat Distiller (но не к файлам, созданным с помощью Latex/Ghostscript). Иногда векторные PDF файлы содержат много формул в виде вставных растров; такие файлы уменьшаются в 3—4 раза при переводе в DJVU.

Именно технические достоинства формата DJVU и возможность автоматизированно обрабатывать DJVU файлы привели к широкому использованию формата DJVU среди энтузиастов создания растровых электронных книг, в основном научно-технического характера.

Решили сделать копию бумажной книги в электронном формате DjVu или PDF? Узнайте, через какие трудности вам придется пройти и какой софт при этом пригодится.

Что для вас значит книга? Если это не просто увлекательный попутчик, но и мудрый наставник, то вы хоть раз задумывались о том, чтобы сберечь ее на будущее. Оцифровка бумажных книг имеет два несомненных преимущества: книга в электронном виде всегда под рукой, и ей очень легко делиться.

Из этого мануала вы узнаете об основных этапах создания удобной электронной версии бумажной книги с навигацией и возможностью копирования текста.

Вступление

Стоит оговориться, что в век бурной защиты авторских прав и легкой доступности литературы, изначально сверстанной в электронной форме, имеет смысл оцифровывать либо старые фундаментальные советские учебники, либо что-то действительно редкое и только для личного пользования.

Имея доступ к старым техническим справочникам, я иногда безвозмездно помогал тем незнакомым мне людям, которым так не хватало хороших источников знаний для обучения. И коль уж я подряжался, хотелось выполнить свою работу на достаточно высоком уровне, чтобы читателю книги было приятно в нее погружаться.

Этап 1. Копирование книги

Со временем многие процессы упрощаются. Если с пяток лет назад этот этап был крайне продолжительным (приходилось пользоваться сканером), то с улучшением камер мобильных телефонов затрачиваемое время существенно сократилось. Конечно, камера камере рознь, но, если подобрать приемлемые условия съемки, должен подойти любой более-менее современный телефон.

Разумеется, использование сканера все же более предпочтительно. Особенно если дело касается технической литературы, содержащей множество формул и чертежей.

Предвосхищая события, отмечу, что снимки впоследствии будут обработаны специальной программой. Но все же стоит добросовестно отнестись к самой съемке, дабы не ставить качество конечного продукта в зависимость лишь от постобработки.

Пример не самого хорошего снимка: освещение страдает, страницы до конца не выпрямлены. Все ради эксперимента

Поэтому постарайтесь максимально широко раскрывать страницы, чтобы изгибы у корешка книги были минимальны. Было бы здорово, если бы вам кто-то в этом помогал. Один человек держит телефон, а второй переворачивает и выпрямляет страницы. Ко всему прочему, студенты любят делать на библиотечных книгах пометки, и неплохо было бы их стереть.

Делаем серию снимков и перекидываем их на компьютер в отдельную папку. Пришла пора поработать неживому мозгу.

Этап 2. Обработка

Я сталкивался с двумя серьезными программами для обработки отсканированных (сфотографированных) книг: ScanTailor и ScanKromsator. Возможно, за годы моего инактива появились еще какие-то достойные альтернативы, но я сомневаюсь — уж очень мала и бедна пользовательская ниша. Самые прожженные книгоделы предпочитают ScanKromsator. В нем предельно много настроек и возможностей, но разобраться и понять все предложенные навороты, видимо, не в состоянии и сам автор программы (шутка). Поэтому я рекомендую вам ScanTailor. Мне довелось следить за развитием этой утилиты с первых дней ее существования. Разработчик еще несколько лет назад прекратил поддержку проекта, но все-таки дал миру хороший инструмент для обработки сканов.

Начало работы

Работа в ScanTailor последовательна и проста. Все промежуточные действия отображены в левой части рабочей области, вы с легкостью вольетесь в процесс.

Выберите папку с исходниками, выходная папка будет создана автоматически. Для всех страниц установите максимально возможное DPI — 600 × 600. Мощности современных компьютеров позволяют достаточно быстро обрабатывать такие изображения.

Не жалейте DPI для своей книги

Шаг 1. Исправление ориентации

Самый простой и быстрый шаг. Скорее всего, вы изначально фотографировали страницы с верной ориентацией, потому и хлопот возникнуть не должно. Отмечу лишь, что изначально ScanTailor будет предлагать вам запустить пакетную обработку текущего действия (небольшой значок Play напротив шага) — обязательно им пользуйтесь, дабы не щелкать по каждому изображению отдельно.

На мой взгляд, ScanTailor может гордиться своим продуманным интерфейсом

Шаг 2. Разрезка страниц

Практически беспроблемный шаг. Я крайне редко встречал ошибки программы на этом этапе. Обязательно обратите внимание на обложку книги — именно здесь зачастую возникают нюансы.

Большей наглядности и придумать трудно

Шаг 3. Компенсация наклона

В подавляющем большинстве случаев алгоритм срабатывает корректно. Не ждите подвоха, переходите к следующему шагу.

К вашим услугам ручная настройка до долей градуса

Шаг 4. Полезная область

Шаг 5. Поля

Обложку обычно приходится дорабатывать в графическом редакторе

Шаг 6. Выход

Последний бой — он трудный самый. Плюс самый ресурсоемкий для вашего компьютера и самый требовательный к вашему вниманию.

Необработанные страницы помечаются вопросительным знаком

Финишный отрезок знаменуется рядом важнейший действий. Прежде всего вы определяете выходной режим книги: черно-белый, цветной или смешанный. Затем страницы очищаются от мусора, искривленные строки выравниваются. Не буду вдаваться в подробности, но укажу вам на не самые заметные закладки, расположенные несколько нелогично и непривычно — между превью страницы и лентой миниатюр. Каждая закладка отвечает за важную функцию ручной настройки получаемых изображений. Если вы найдете желание и время вникнуть в принцип их работы, ваши книги будут более высокого качества.

Стремясь к идеалу, на эту работу вы можете потратить не один час. Все зависит от вашей заинтересованности в конечном результате и качестве исходных снимков. Да, я еще раз возвращаюсь к этой теме. Чуть большие старания на этапе подготовки могут сэкономить огромное количество времени, которое уходит на приведение страниц в приличный вид.

Прошу не брать за образец приведенные скриншоты — на все про все у меня ушло не более пары минут. Я не сомневаюсь, что забыл указать вам на некоторые нюансы работы со ScanTailor — слишком давно я ничего не обрабатывал с его помощью.

В итоге вы получите набор разрозненных страниц в формате .tif. Пора сшиваться!

Этап 3. Создание djvu-файла

Если вы хотите быстро сварганить DjVu-файл, обратитесь за помощью к малюсенькой утилите DjVu Small. Есть и более серьезные программы, например DjVu Editor Pro. Конечно, предпочтительным видится применение второго инструмента. Но решать вам: установите обе программы и сравните их возможности.

Что касается создания PDF — в Интернете есть вагон и маленькая тележка соответствующих программ и веб-сервисов.

Этап 4. Создание OCR-слоя

Одним из признанных мировых лидеров в распознавании текста несомненно является компания ABBYY с ее известным продуктом FineReader. Наверное, нет таких людей, которые не слышали об этой программе, поэтому и расписывать особо нечего. С недавнего времени FineReader умеет открывать и сохранять результаты работы прямиком в DjVu, что исключает необходимость использования промежуточного софта.

Этап 5. Создание оглавления

На просторах Сети довелось встречать положительные отзывы о программе Pdf & Djvu Bookmarker. Как становится понятно из названия, софтина умеет работать с обоими самыми распространенными форматами электронных книг.

Заключение

Но в целом рекомендую остановиться после обработки в ScanTailor, объединить разрозненные страницы в PDF и дальше не лезть в дебри.

Осознанно и бессознательно я упустил кучу мелочей и нюансов, которые подстерегут вас на пути создания хорошей электронной книги. Надеюсь, что к обсуждению в комментариях подключатся знающие люди и укажут на мои неточности или расскажут о своих секретах.

Читайте также: