Цифровые копии произведений кратко

Обновлено: 05.07.2024

11 марта 2021 года стало началом нового этапа в истории современного искусства. В этот день цифровой художник Beeple продал коллаж из своих картин за 69,3 миллиона долларов – более 5 миллиардов рублей в экосистеме блокчейна. Это самая крупная в истории продажа цифрового искусства, которая вызвала бум на NFT-рынке.

Они были лично подписаны директором музея Михаилом Пиотровским, который заверил подлинность каждой работы, тем самым придав им абсолютную уникальность, увековеченную в блокчейне. Само место подписания – залы Эрмитажа – также закреплено в метаданных.

Кстати

В 2016 году была создана Российская ассоциация цифровых гуманитарных наук, которая объединила исследователей, применяющих методы и технологии Digital Humanities (направление для исследований на стыке компьютерных и гуманитарных наук). Среди петербургских вузов в нее входит Университет ИТМО, а именно Кафедра графических технологий, которая занимается исследованием методов компьютерной графики, виртуальными музеями и сохранением цифрового культурного наследия, а также проектированием человеко-машинных интерфейсов.

Зачем нужны цифровые копии

Есть два возможных ответа на этот вопрос. В первую очередь, для сохранения культурного наследия. Оцифровка позволяет создать электронные копии редких экземпляров или книжных памятников, которые могут исчезнуть навсегда в случае, например, пожара или стихийного бедствия.

Для читателей оцифровка открывает возможности удаленного пользования каталогами, фондами, в том числе ранее недоступными редкими изданиями или изданиями, чье состояние неудовлетворительно.

Корпорации читателей

Если говорить о крупных проектах по массовой оцифровке изданий, то в первую очередь стоит упомянуть корпорацию Google и ее сервис Google Books. Запущенный в октябре 2004 года сервис полнотекстового поиска по книгам направлен на то, чтобы упростить поиск информации, доступной на бумажных носителях.

Если книга является общественным достоянием, ее можно прочитать в Google Books целиком. Если нет — можно выполнить поиск по тексту, но при этом пользователю будут видны только фрагменты, содержащие поисковый запрос, и контекст. На странице издания также можно узнать, в каких библиотеках есть эта книга или в каких магазинах ее можно приобрести.

Библиотеки-партнеры получают электронные копии каждой отсканированной книги из своих фондов. Файлы хранятся в библиотеках и, если это разрешено законом об авторском праве, предоставляются постоянным посетителям. Среди партнеров проекта — библиотека Мичиганского университета, библиотека Калифорнийского университета, библиотека Висконсинского университета в Мадисоне и библиотека Техасского университета в Остине.

По состоянию на октябрь 2019 года, в коллекции сервиса находится около 40 миллионов книг более чем на 400 языках. В честь 15-летия проекта Google открыл новые возможности: Google Arts & Culture представляет культовые и редкие книги в онлайн-проекте.

Альтернативой проекту Google Books выступает консорциум организаций и компаний Open Content Alliance и Open Library. Консорциум был создан в 2005 году на базе Yahoo некоммерческой организации Internet Archive, при участии Университета Калифорнии, Университета Торонто и других.

Сканирование осуществлялось Internet Archive, который также предоставил постоянное хранилище для цифровых изданий и доступ к ним через свой сайт. В отличие от Google в проекте использовались произведения, не защищенные авторским правом, а также защищенные, в отношении которых было получено согласие правообладателей на оцифровку.

В 2008 году специалистами было переведено в электронный формат более миллиона книг, 300 тысяч из которых вошли в проект Open Library. Последний, кстати, предоставляет услугу по бесплатному переводу в цифру любой книги из списка фонда Бостонской общественной библиотеки в течение 5-8 рабочих дней.

В 2005 году к этому проекту присоединилась компания Microsoft, однако позднее (в 2008 году) объявила о создании собственного проекта онлайн-поиска книг и организовала сканирование около 100 тысяч книг, не защищенных авторским правом, для Британской библиотеки.

Всемирная библиотека

В июне 2005 года директор Библиотеки Конгресса США Джеймс Х. Биллингтон в речи, обращенной к Национальной комиссии США по делам ЮНЕСКО, предложил создать Mировую цифровую библиотеку.

ЮНЕСКО поддержала инициативу, и в декабре 2006 года совместно с Библиотекой Конгресса было созвано Совещание экспертов для обсуждения деталей проекта. Специалисты отметили, что во многих странах лишь малая часть культурного наследия переводится в цифровой формат и что развивающиеся страны не располагают достаточными возможностями для оцифровки своих культурных ценностей.

Помимо Библиотеки Конгресса и ЮНЕСКО, в проекте приняли участие Национальная библиотека Бразилии, Александрийская библиотека, Национальная библиотека и архивы Египта, Российская национальная библиотека и Российская государственная библиотека.

В апреле 2009 года Mировая цифровая библиотека стала доступной для международной общественности. В настоящее время в ее хранилище насчитывается более 19 тысяч объектов, представлены 193 страны и 145 языков.

Отдельные проекты

Не только книги, но и журналы становятся объектами для оцифровки. Один из наиболее крупных проектов в этой сфере — JSTOR. На сегодняшний день он включает более 12 миллионов оцифрованных научных журнальных статей, книг и первоисточников по 75 дисциплинам.

Существуют менее массовые, но не менее ценные проекты по оцифровке. Среди них можно упомянуть eText Университета Вирджиния, опубликовавший, в частности, Первое фолио Уильяма Шекспира — собрание его комедий, исторических хроник и трагедий, изданное в Лондоне в 1623 году.

Майкл Харт, создатель другого онлайн-архива — проекта Gutenberg — еще в 1971 году был уверен, что появление электронных книг внесет такой же вклад в развитие науки и человеческого познания, как изобретение книгопечатания Иоганном Гуттенбергом в середине XV века.

Один из примеров красочного представления оцифрованного наследия — David Rumsey Map Collection. Коллекция карт Дэвида Рамси была начата более 30 лет назад и на сегодняшний день насчитывает более 150 тысяч единиц хранения.

В нее входят редкие карты Северной и Южной Америки, атласы, настенные карты, глобусы, карманные карты, книги, морские карты и различные картографические материалы. Самые старинные предметы датируются серединой XVI века, но есть и современные экспонаты. Оцифровка коллекции началась в 1996 году, и сейчас в сети насчитывается более 94 тысяч предметов.

Сайт открывает доступ не только к изображениям карт в высоком разрешении, но и к различным онлайн-инструментам, позволяющим сравнивать, анализировать и просматривать отдельные единицы хранения. Благодаря этому пользователи могут сравнивать несколько карт одной и той же местности, относящихся к разным периодам времени, или создавать свою собственную коллекцию карт.

В целом на сегодняшний день во всем мире можно выделить более 100 различных крупных проектов, связанных с оцифровкой литературного наследия.

Российские цифровые библиотеки

Работа по оцифровке книг и документов ведется в нашей стране не первый год. Российская государственная библиотека (по данным на 2019 год) оцифровала 1,2 миллиона изданий (из 45,5 миллиона книг), 150 тысяч из которых — это редкие книги и рукописи.

Фонд Президентской библиотеки имени Бориса Ельцина полностью оцифрован, он включает около 380 тысяч изданий (150 тысяч выставлены для общего доступа). Из 37 миллионов книг Российской национальной библиотеки имеют электронную копию 530 тысяч, из двух миллионов Российской государственной библиотеки искусств — 17,5 тысячи. Постепенно оцифровывают свои фонды Государственная публичная историческая библиотека, Всероссийская государственная библиотека иностранной литературы имени Рудомино, городские библиотеки по всей стране.

К концу 2019 года НЭБ планирует запустить мобильное приложение, где будут доступны около 400 изданий российской и зарубежной художественной литературы.

Как создают электронные копии?

Технология оцифровки зависит от издания и его состояния. Например, отсканировать одну страницу вновь поступившей диссертации можно быстро и дешево; а оцифровка книги, которую сперва необходимо реставрировать, будет стоить до 50 тысяч рублей за страницу.

Сканеры отличаются по сложности. Так, в районных библиотеках используют планшетные, а крупные библиотеки вынуждены приобретать планетарные сканеры, которые сводят к минимуму воздействие на книгу, не раскрывая ее на 180 градусов. Некоторые библиотеки при необходимости прибегают к роботизированным сканерам, способным обрабатывать до трех тысяч страниц в час на протяжении суток.

При оцифровке изданий очень важно обеспечить сохранность оригинала, особенно когда речь идет о редких и уникальных изданиях. Для этого используется техника, обеспечивающая бесконтактную технологию сканирования, оберегающая книжные переплеты и исключающая вредное излучение и тепловое воздействие на оригинал.

При оцифровке раритетов часто используется индивидуальный подход: оценивается состояние оригинала, его габарит и вес, фактурность бумаги или другого носителя и так далее. Все эти требования подробно прописаны в рекомендациях по оцифровке материалов из фонда библиотек.

После сканирования начинается второй этап оцифровки книги — распознавание текста. Даже дорогостоящие программы по распознаванию пока не обеспечивают безошибочную точность передачи текста, поэтому необходимо вмешательство человека.

Количество погрешностей особенно увеличивается в тех случаях, когда речь идет о древних и рукописных текстах, где встречается много слов, неизвестных программе по распознаванию текстов. Если же речь идет об изданиях на редких языках, то для их оцифровки нужен не просто редактор, но и носитель языка, переводчик или эксперт.

Цифровые копии бывают трех типов — они различаются между собой по объему информации в зависимости от назначения и особенностей использования.

Мастер-копия содержит максимально возможное количество информации, к ней не применяются алгоритмы сжатия. Она используется для восстановления объекта в случае его утраты, для некоторых видов исследований, для полиграфических целей, а также для изготовления других типов цифровых копий. Для защиты авторских прав доступ к мастер-копиям ограничен, и пользователям они предоставляются только в особых случаях.

Наконец, служебная копия — это издание в низком разрешении, предназначенное для предварительного просмотра при поиске в Интернете, в базах данных и в электронных библиотеках. Служебные копии могут быть сжаты с потерями вплоть до уменьшения разрешения графического образа, кроме того, в документ могут быть внедрены дополнительные данные (например, водяные знаки, метаданные и проч).

Облака и хранение данных

Облачное хранилище — это комплекс решений, предлагаемый поставщиками облачных хранилищ (среди мировых лидеров — Amazon Web Service, IBM, VMware и другие) для обслуживания, управления и хранения всех видов информации в центре обработки данных, который доступен через Интернет.

Согласно отчету, опубликованному Allied Market Research, в 2015 году мировой рынок облачных хранилищ оценивался в 21,17 миллиарда долларов. По прогнозам, к 2022 году он достигнет 97,41 миллиарда долларов.

Росту этого рынка способствуют сравнительно невысокая плата за пользование программным обеспечением; удобство доступа к удаленным серверам, в том числе возможность работы с данными с любого устройства, имеющего выход в Интернет; более высокая безопасность данных (по сравнению с хранением на собственных серверах); возможность управлять огромными объемами административной информации и организовать совместную работу с данными, результаты которой сохранятся даже в случае локальных технических сбоев.

Критики облачных технологий в первую очередь говорят о рисках, связанных с безопасностью хранения данных.

По данным исследования iKS-Consulting, российская индустрия облачных услуг будет расти примерно на 23 процента в год в течение ближайших лет и может достичь 155 миллиардов рублей к концу 2022 года.

С точки зрения библиотечного дела, в России пока нет окончательного решения. Однако появление облачных хранилищ вошло в число приоритетных направлений деятельности российских библиотек наравне с развитием новых средств хранения и обработки данных и глобальной информатизацией.

Накопленный российскими библиотеками опыт позволяет четко сформулировать ответы на три главных вопроса оцифровки библиотечного фонда: зачем сканировать, что сканировать, как сканировать.

Почему библиотека является наиболее ярким образом системологии – фундаментальной науки, изучающей организацию процессов и явлений в мире? Ответ кроется в фонде и справочно-поисковом аппарате библиотеки. Для обычного читателя книги на полках и есть фонд, но это не совсем так. Библиотечный фонд – это сложная по структуре совокупность документов, представленных на различных носителях информации, соответствующая определенным отраслям знаний и связанная со специализированным поисковым механизмом на основе карточного каталога.


Даже размещение журналов на стеллажах библиотеки основываются на научном подходе: информетрический закон Брэдфорда объясняет закономерность распределения статей по изданиям и тем самым позволяет с большой вероятностью спрогнозировать востребованность материалов, исходя из специфики информации.

Иначе говоря, библиотекам удалось создать идеальную систему классификации и структурирования информации, которая позволила решить проблему хранения и поиска огромных объемов данных из любых источников. Для этого были разработаны специализированные библиотечные классификаторы, регламентирующие распределение и расстановку фондов, методы организации систематических каталогов, стандарты оформления и учета документов.

Об оцифровке

Когда мы говорим об оцифровке книг любой библиотеки, то, помимо сохранности оригиналов и обеспечения аутентичности электронной копии, необходимо помнить о сохранении идентичности структуры классификации и поиска информации в бумажном и электронном фонде. Другими словами, сканирование книг требует обязательного создания электронного каталога и формирования индексно-поисковой базы данных с максимальной полнотой наполнения.

Проекты по созданию электронных ресурсов библиотек
являются одними из самых сложных и насыщенных с точки зрения трудозатрат,
применяемых методологий и технического исполнения.

Это ошибочное мнение. В последние годы библиотеки активно меняются, внедряют современные технологии и стандарты обслуживания для удовлетворения потребностей нового поколения читателей, воспитанных на свободе использования цифрового контента. Принимаются программы по переоснащению, в практику работы вводятся индексы эффективности деятельности, создаются единые каталоги, региональные и краеведческие электронные коллекции. В 2015 г. запущена Национальная электронная библиотека (НЭБ), для развития которой проводится регулярная оцифровка фондов российских библиотек.

Не стоит забывать и о сохранности бесценных знаний и культурных ценностей, накопленных в книгохранилищах по всей стране. Для этих целей оцифровка – самый эффективный способ сохранения изданий и обеспечения безопасного доступа к содержащейся в них информации.

Электронный каталог


Проект в одной крупной библиотеке продолжался с 2003 по 2011 гг. В ходе проекта было выполнено сканирование и индексирование более 2 млн карточек систематического каталога на русском и иностранных языках. В АБИС перенесены данные по 17 полям с каждой карточки.

Основа основ автоматизации современных библиотек – создание электронного каталога и наполнение автоматизированной библиотечно-информационной системы (АБИС). АБИС необходима для автоматизации учета фондов. А полноценный электронный каталог значительно увеличивает эффективность и скорость поиска информации, значительно повышая общее качество обслуживания читателей.

Как правило, в библиотеке ведутся несколько видов каталогов: алфавитный, в котором все карточки расставлены по алфавиту; систематический, где карточки расставлены по отраслям знаний. Существуют каталоги, разделяющиеся по охвату фонда: генеральный или отдельных частей фонда; по назначению: читательский или служебный; по многим другим признакам: краеведческий, предметный и т.д.

При большом количестве фондов
оцифровка всего каталога – довольно длительный процесс,
который обычно проводится поэтапно.

Основа каталога – это библиотечная карточка, содержащая информацию об издании, индексы классификации, номер книги (ISBN) и другие данные. Ввиду большого объема специфической информации, карточка является сложнейшим документом для извлечения индексных данных. Еще больше затрудняют обработку информации записи на иностранных языках, рукописный текст или диакритические знаки (различные надстрочные, подстрочные, реже внутристрочные символы).



Одна библиографическая запись может содержать до 24 разных полей. Перенос записей в систему напрямую с бумажных носителей нецелесообразен из-за низкой скорости и риска потери/пропуска ключевой информации, поэтому работы по созданию электронного каталога подразумевают обязательное предварительное сканирование библиотечной картотеки, формирование и проверку индексной базы данных перед загрузкой в АБИС.

Даже в небольшой библиотеке количество карточек исчисляется тысячами единиц. В таких условиях искать собственные кадровые и технические ресурсы и самостоятельно заниматься формированием электронного каталога практически невозможно, поэтому для экономии времени и денег привлекаются профессиональные подрядчики, которые специализируются на обработке библиотечной информации и готовы гарантировать итоговый результат.

Типовой технологический процесс создания электронного каталога

Оцифровку целесообразно производить на территории библиотеки, чтобы не изымать библиотечные карточки из использования и не нарушать работу с читателями. Процесс делится на несколько этапов:

Экспертиза. Оценивается физическое состояние карточек и объемов картотеки. Определяется состав библиографического описания и требуемый формат машиночитаемых записей. Исходя из полученных данных, составляется дальнейшая технологическая цепочка работ. На перечень работ и методы извлечения данных влияют нюансы в написании символов, формате и даже составе материала (картон, бумага). Ниже приведены возможные типы карточек:


Современное оборудование позволяет достигать скорости сканирования 170 карточек в минуту, при этом выбор профессионального сканера позволяет избежать повреждения самих карточек.

  • добавочная карточка. Особенность: печатные и рукописные символы,
  • разделитель. Особенность: отличный от стандартного формат карточки,
  • ссылочная карточка. Особенность: только рукописные символы,
  • описание. Особенность: старорусский текст.

Сканирование. Поточное сканирование бумажных карточек осуществляется на высокоскоростных документных сканерах. Стандартные требования к оцифровке: разрешение 300 dpi, черно-белый режим сканирования, формат файлов TIFF или JPEG. Большинство карточек типового размера 130х80 мм, но встречаются до формата А6 (148х105 мм) включительно. Иногда перед сканированием производится склейка поврежденных карточек. Часто проводится двустороннее сканирование карточек, где на обратной стороне содержатся инвентарные номера, разбивка по филиалам. Незначимые карточки-разделители не сканируются.

После оцифровки бумажный массив картотеки приводится в исходное состояние.
Все последующие работы проводятся с полученными
графическими образами карточек.


Обязательно должны проводиться поворот перекошенных изображений, удаление фона, проявление слабоконтрастных символов и т.д.

Свойства электронных копий должны исключать потерю информации и не ухудшать читаемость документа по сравнению с бумажным оригиналом. В случае плохого состояния исходного материала допускается использование программных средств улучшения качества изображений.

Вся обработка изображений выполняется в автоматическом режиме. Возможна ручная коррекция геометрии образов, очистка от шумов и следов сгиба при необходимости обработки небольшого количества поврежденных документов.


Даже в случае набора текста на печатной машинке, далеко не все символы распознаются корректно. Автоматическое распознавание рукописного текста, карандашных пометок и карточек, созданных до середины 20 века практически невозможно.

Количество графических образов должно совпадать с числом листов бумажного массива. Нормой стало сканирование в порядке следования карточек каталога. Пропуск страниц считается браком.

Ретроконверсия: ввод информации с отсканированных карточек и формирование базы данных. Карточки могут содержать машинопечатный и рукописный текст, карандашные пометки, нечеткие символы и иметь другие особенности заполнения.

В редких случаях, при хорошем качестве документа, содержащего печатный текст, можно использовать программные средства распознавания для автоматического извлечения определенных полей карточки.

Поэтому данные с библиотечных карточек в основном вводятся вручную
и проходят многоуровневую систему контроля качества.

Перед ретроконверсией производится сепарация (сортировка) изображений с целью группировки отдельных частей массива по типам карточек и другим признакам индексирования (сцепка составных карточек, создание блоков данных для томов, разделение по языкам и т.д.). Производится разметка блоков для удобства извлечения данных оператором.



На выходе формируется база данных в требуемом для библиотеки формате (RUSMARC, UNIMARK, MARC21 и др.). В некоторых случаях при создании электронного каталога предметом обработки могут служить напрямую графические образы книг. Тогда к работе привлекаются операторы, владеющие знаниями правил составления библиографических описаний.

Требования к минимальному проценту ошибок в базе данных очень высоки, так как это напрямую влияет на качество поиска информации в электронном каталоге. Поэтому после ввода данных присутствует этап проверки по различным параметрам опытными верификаторами.

Для ускорения процесса ретроконверсии используется технология заимствования,
упрощающая ввод информации за счет автоподбора заполнения полей
на основе ранее введенных данных.

Сканирование книг


Многие библиотеки уже обладают профессиональными планетарными сканерами для ежедневной оцифровки книг. Но собственными силами в основном сканируется поступающая литература. Для массовой качественной оцифровки обычно заказываются аутсорсинговые услуги. Так, в одной крупной федеральной библиотеке с 2008 по 2014 гг. оцифровано более 16,5 млн страниц библиотечных и архивных фондов силами привлеченного подрядчика.

После создания электронного каталога или параллельно этому процессу библиотеки решают задачи по обеспечению сохранности и доступности книжного фонда путем оцифровки книг. Работы по оцифровке проводятся для наполнения национальных электронных проектов, создания коллекций редких книг и полнотекстовых ресурсов, собраний тематических иллюстрированных материалов и много другого.

Библиотеки могут проводить работы по оцифровке фондов самостоятельно. Например, в крупных библиотеках организованы целые отделы сканирования, располагающие парком профессионального оборудования.

Важным аспектом являются характеристики цифровых копий. Если решаются локальные задачи, библиотека может самостоятельно определять требования к выходным электронным ресурсам. Но при реализации национальных проектов, где используются фонды различных библиотек, необходим общий стандарт, регламентирующий основные характеристики работы.

При создании НЭБ электронные ресурсы, созданные техническим исполнителем
и библиотеками самостоятельно, имели разные параметры оцифровки,
что усложняло работу по обработке и загрузке цифрового контента.

Особенности сканирования книг

При оцифровке книг этапы работ повторяют процесс создания электронного каталога. Действует библиотека самостоятельно или нанимает подрядчика, но так или иначе в первую очередь необходимо определить цель проекта и провести экспертизу книжного фонда для понимания стоимости и трудоемкости работы. В дальнейшем формируется состав подлежащих оцифровке изданий, согласовываются технические требования, и производится окончательная оценка проекта.

Рассмотрим несколько особенностей оцифровки книг, которые влияют на стоимость и сроки проектов. Большое значение имеет формат и состояние книг, а также объем бумажного фонда. Исходя из этих особенностей, определяется вид сканирующего оборудования и технологии оцифровки.

Ветхая, рваная бумага, а также толстый переплет многих книг позволяет применять только бесконтактное сканирование – профессиональные планетарные (книжные) сканеры. Использование планшетных сканеров исключено.

После сканирования полученные цифровые копии проходят процесс программной коррекции, приводятся к наиболее удобному для чтения качеству изображений. Зачастую при использовании профессиональных книжных сканеров для этого достаточно встроенных программных средств обработки. После получения массива цифровых копий при необходимости составляются библиографические описания отсканированных изданий.

Отдельно стоит выделить работы по высококачественному сканированию коллекций редких книг, книжных памятников, фолиантов и других ценных экземпляров. Для этого используются специализированные комплексы высококачественного сканирования, обеспечивающие уникально высокие показатели оптического разрешения.

Особенности формирования полнотекстовых PDF-книг

Для создания таких книг проводится полнотекстовое распознавание с дальнейшей верификацией текста и проверкой орфографии. Для окончательной вычитки документа привлекаются профессиональные корректоры.

В результате макетирования формируется электронная книга,
полностью идентичная бумажному оригиналу — с точным расположением страниц,
иллюстрациями, сохранением языка и стиля.

Оцифровка книг и каталогов библиотек, особенно при существенном объеме, разнородности фондов по формату и состоянию оригиналов, – сложнейший производственный процесс, осуществить который качественно могут только специализированные компании, обладающие всей необходимой инфраструктурой и большим опытом в создании электронных ресурсов.


Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час, такие устройства могут стоить тысячи долларов. Но можно сделать сканер и самому, например, ручные книжные сканеры, способные оцифровывать около 1200 страниц в час, а стоимость построения около 300 долларов.

Содержание

Методика оцифровки

В прошлом чаще применялся ручной набор текста книги.

Сегодня процесс оцифровки включает два подхода.

В последнее время (особенно с появлением форматов PDF и DjVu) всё чаще применяется смешанный подход: текст книги распознаётся в автоматическом режиме и подкладывается под оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.

Книжные сканеры

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

  • планшетные — сканеры, ориентированные на домашнего пользователя, но сконструированные именно для облегчения процесса сканирования книг (Plustek и другие) — профессиональные высокопроизводительные сканеры
  • роботизированные (англ.) — промышленные сверхвысокопроизводительные сканеры, оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая линейка, а одна расположенная над сканируемым оригиналом цифровая камера высокого разрешения (30—140 Мпикс.). В некоторых моделях возможно использование двух камер, которые устанавливаются под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота (при этом нет необходимости раскрывать книгу на 180°, что критично при оцифровке старых или находящихся в плохом состоянии оригиналов).

Планетарные и роботизированные сканеры позволяют достичь производительности 500—2000 страниц в час, у лучших моделей — до 2500—3000 страниц в час.

Профессиональные книжные сканеры




Профессиональные книжные сканеры не просто обычные сканеры, это книжные сканеры, которые сканируют в высоком качестве с использованием цифровой камеры и источниками света по обе стороны от камеры, обеспечивающие легкий доступ к книге. Преимуществом таких сканеров является то, что это очень быстрые сканеры, по сравнению с производительностью планшетного сканера. Однако цены таких сканеров обычно начинаются с 10 000$..

Сканирование с обрезкой страниц

Для сканирования книг с низким бюджетом, наименее дорогим способом является сканирование книги или журнала с обрезкой страниц от корешка. Это превращает книгу или журнал в стопку документов, которые могут быть загружены в стандартное устройство автоматической подачи документов, Хотя, безусловно, это не является хорошим решением для очень старых и необычных книг, в особенности тогда, когда книга дорогая и коллекционная. В данном сканировании есть две трудности, обрезка страниц и само сканирование.

Обрезка страниц

Одним из способов резки страниц объемом от 500 до 1000 страниц за один раз, выполняется с помощью гильотины для бумаги. Эта конструкция представляет собой большой стальной стол с тисками для бумаги. Разрез выполняется большим заостренным стальным лезвием, которое движется прямо и режет по всей длине каждого листа сразу. Рычаг на лезвии позволяет прикладывать силу в несколько сотен фунтов, которая необходимо для разреза стопки бумаги. Чистый срез невозможно сделать традиционным серповидным ножом, так как он предназначен только для резки нескольких листов, где 10 листов является практически пределом. С течением времени при нарезке большой стопки бумаги, разрез становится все более неточным, а усилие которое нужно прикладывать для нарезки бумаги увеличивать. Процесс при резке гильотиной притупляет лезвие с течением времени, поэтому необходимо затачивать лезвие. Бумага с покрытием, притупляют лезвие быстрее, чем обычная бумага.

Сканирование

Сканирование без вмешательства

Сканер на основе ЦФК. Сканер предназначен для оцифровки как сшитых, так и расшитых изданий. Подходит для оцифровки как относительно новых, так и ветхих изданий за счет специальной V-образной колыбели, позволяющей не раскрывать книгу полностью (на 180 градусов), что сводит к минимуму вредное воздействие на издание. Книга остается в одной и той же позиции. Скорость сканирования (цветной режим) около 500—700 страниц/час. Перелистывание страниц происходит вручную (существуют модели с автоматическим перелистыванием, однако ценные, ветхие книги, составляющие основу библиотечного фонда, не рекомендуется оцифровывать на таком оборудовании во избежание повреждений). Формат сканируемого документа А2-А4. Разрешение получаемых изображений 130—470 dpi (оптическое) . Сканеры подобного типа занимают много рабочего пространства, однако практически не подвержены поломкам, поскольку являются сканирующими платформами. Модернизируется за счет замены фотокамер на более профессиональные варианты. Запускается нажатием одной кнопки. Примером, таких сканеров могут являться сканеры, использующие цифровые фотокамеры.

Крупные проекты по оцифровке книг

В ходе масштабных проектов по оцифровке книг, как правило, обрабатываются книги, перешедшие в общественное достояние. Хотя Google оцифровывает вообще все книги, однако книги, защищённые авторским правом, предоставляет лишь в виде фрагментов. К крупным проектам по оцифровке на сегодня относятся:

Одной из основных проблем является большой объем книг, которые будут отсканированы. Десятки миллионов книг будут отсканированы, а затем должны находится в свободном доступе и поиске в интернете, в качестве универсальной библиотеки. В настоящее время крупные организации полагаются на аутсорсинг, сканирование дома, используя профессиональные книжные сканеры, и сканирование дома, используя роботизированные сканеры. Что касается аутсорсинга, то книги часто отправляются оцифровываться в Индию или Китай, за счет самых низких цен. Профессиональные сканеры используют цифровые камеры, что значительно ускоряет весь процесс. При использовании роботизированных сканеров традиционно необходимо отделять страницы от корешка книги, чтобы страницы могли автоматически подаваться. Как только страница сканируется, то данные вводятся вручную или с помощью OCR, что является еще одним критерием стоимости сканирования книги. В связи с вопросами авторского права, на большинство отсканированных книг не распространяется авторское право. Однако известно, что Google Book Search сканирует книги, которые защищены авторским правом и может убрать книгу из свободного доступа, только если только издатель специально исключит книгу из поиска.

Оцифровка по желанию

Ряд крупных библиотек предоставляют особые услуги по оцифровке публикаций из своих фондов по желанию читателей. Основные критерии: публикации должны находиться в общественном достоянии и должны быть в достаточной сохранности. Таким образом, появляется источник финансирования процесса оцифровки или же устанавливаются приоритеты при массовой оцифровке. Как правило, отметка о возможности сканирования интегрирована в библиотечный каталог, оцифрованная публикация размещается в электронной библиотеке для всеобщего доступа.

Читайте также: