Новости

Оцифровка особо ценных документов

Актуальность оцифровки документов основана на исследовании Национальной программы «Цифровая экономика». Особенно заметные изменения происходят в архивной отрасли - переход к безбумажной деятельности федеральных, краевых и муниципальных архивов подразумевает оцифровку большого количества особо ценных единиц хранения. Кроме того, появление инновационных технологий и развитие IT-сектора, а в особенности сложная эпидемиологическая обстановка, в которой находится мировое сообщество с начала 2020 года, прогнозируемо привели к необходимости создания удаленных цифровых ресурсов, экспозиций учреждений культуры и появлению электронных архивов документов в коммерческих организациях.

Современные методы оцифровки документов

Cоздания электронных архивов включают в себя три основных направления:

  • оцифровка документов на бумажных носителях;
  • оцифровка кино- и фотодокументов;
  • оцифровка Арт объектов и коллекций (3D оцифровка).

Для каждого направления характерны свои разработки осуществления процесса перевода оригиналов документов в электронный вид. Наиболее простое и востребованное направление - оцифровка документов с бумажных носителей. Рассмотрим подробнее этот интересный процесс.
Основными заказчиками оцифровки бумажных документов являются государственные учреждения, поскольку именно в госучреждениях, таких как архивы и библиотеки, находится большое количество бумажных документов. Кроме того, бумажные документы образуются в процессе деятельности судов и нотариальных палат, и в основном они стандартизованы под определенные размеры.


Результатом оцифровки документов на бумажных носителях является электронная копия (скан-образ) документа. В процесс оцифровки можно вмешиваться на любом этапе его проведения, и это имеет свои плюсы и минусы. Основной минус - такой процесс исключает использование электронных копий в качестве юридически значимых документов. Основных плюсов два - выведение бумажного документа из пользовательского оборота, что увеличивает сроки его хранения, и создание электронного архива копий документов, с организацией поиска внутри архива и распределением прав доступа к электронным документам. Рассмотрим подробнее технологические детали процесса оцифровки.
Для получения качественного результата существуют необходимые и желательные условия.

Необходимые условия включают в себя:
  1. Наличие технологического устройства оцифровки.
  2. Наличие специализированного помещения для проведения оцифровки
  3. Наличие квалифицированного персонала.

Желательные условия сильно зависят от качества оригинала бумажного документа и при определенном стечении обстоятельств могут переходить в необходимые.
Итак, что же такое это за технологическое устройство, позволяющее перевести бумажный документ в электронный вид? Конечно же это сканер. В соответствии с поставленными задачами сканеры имеют характерные особенности. В самом общем виде это два класса устройств, основным различием которых является форма взаимодействия с документом. Первый вариант - без физического соприкосновения с документом, во втором соприкосновение с документом обязательно. Как правило, сканеры для особо ценных документов относятся к первому варианту, сканеры второго варианта обычно используют для работы с большим количеством однообразных документов длительного или временного срока хранения. По организации процесса и воздействию на документ первый вариант сканирования называют бесконтактным, второй - поточным. Давайте разбираться, где какой вариант лучше использовать. Легче всего это сделать на примере любого государственного архива.


Находящиеся в архиве бумажные документы имеют различные сроки хранения:
  1. Постоянно
  2. Долговременно - на 75/50 лет
  3. Временно - до 10 лет

Соответствие документа определенному сроку хранения является главным показателем его ценности. На постоянное хранение попадают особо ценные документы, к которым можно отнести дореволюционные документы, например метрические книги, ревизские сказки и другие рукописные документы, так сказать, «в возрасте». Кроме того, постоянно хранятся и некоторые документы советского и российского периода, например постановления глав администраций и различная техническая документация. Дореволюционные документы на текущий момент оцифровываются бесконтактным способом, при этом используются сканеры, оптический элемент которых неподвижно закреплён относительно документа. Такие сканеры называют планетарными, из-за их конструкции. Используемый оптический элемент - цифровой фотоаппарат с CMOS(КМОП) или CCD(ПЗС) матрицей.

Основные факторы выбора сканера для оцифровки бумажных носителей

1. Тип матрицы

Одним из важных факторов, который имеет значение при выборе оптического элемента сканера, является тип матрицы, являющейся главным структурным элементом. Она представляет собой сенсорное устройство, главная черта которого – высокая чувствительность. Благодаря устройству и работе матрицы оптический сигнал переводится в иное качество – становится цифровым изображением. Тип матрицы и ее качество определяют уровень электронных копий документов (сканобразов). Физические размеры матрицы прямо пропорционально влияют на количество цифрового шума, появляющегося на электронной копии, поэтому чем размеры матрицы больше, тем изображение лучше.
Кроме того, большой размер матрицы даёт возможность увеличить размер ее отдельных элементов - пикселей, основная задача которых - формирование одной точки изображения. Если совсем просто - большой пиксель матрицы обладает более высокой чувствительностью к свету, следовательно, уменьшает зависимость конечного изображения от освещенности.
Оптимальным размером является размер Full Frame, размер кадра 35 мм пленки. Ниже представлена таблица основных размеров матриц оптических элементов

Таблица размеров матриц цифровых фотоаппаратов:
Размер матрицы по диагонали, дюймы Соотношение сторон матрицы Высота матрицы, мм
1″ 3 : 4 9.6
4/3″ 3 : 4 13.5
½ 35ММ КАДРА 2 : 3 15.0
35мм кадр или полноразмерная матрица (Full Frame)

Различаются две группы по способу считывания информации из ячеек (пикселей). Первая группа – это ПЗС матрицы (CCD), вторая - КМОП матрицы (CMOS). В матрице ПЗС эта информация считывается последовательно, а в матрицах КМОП - отдельно из каждой ячейки. Разницу можно проследить даже на самом простом примере. При типе ПЗС нельзя делать снимки очень быстро, необходимо время для формирования предыдущих фото. А вот особенности КМОП матрицы отлично подходят для действия автофокуса, для проведения экспонометрии, а также и для обычной фотосъемки. Матрицы типа CMOS требуют меньшего объема энергии для своей работы, да и их производство гораздо экономнее, а цена доступнее.
Существуют разработки сканеров с ПЗС линейкой, где используются трехслойные матрицы, в которых каждый слой – это CCD тип. Их ячейки отличаются тем, что могут воспринимать сразу три цвета. Эти три цвета образуются при попадании света на дихроидные призмы.



В результате прохождения пучка света через призму он разделяется на три с разными длинами волн, формируя на фотоэлементе RGB (red, green, blue) изображение, где яркость трех цветов (синего, красного и зеленого) определяется сразу, а не через последовательную фильтрацию.

2. Формат выходного файла

Сканобраз, полученный с матрицы, может сохраняться в файлах различного формата.
На текущий момент существуют два основных способа записи изображения, отличающиеся кардинально — векторное и растровое.

2.1. Растровый способ записи сканобразов

Растровый способ записи - как раз то, что мы и получаем с матрицы сканирующего элемента.
В физическом плане это двумерная матрица из N элементов изображения (пикселей). Каждая ячейка матрицы (таблицы) характеризуется цветом. Цвет может быть записан в любой общепринятой системе, но если мы хотим использовать полученные сканобразы в электронных устройствах, например, на экране монитора, то лучше это делать в системе цветности RGB, то есть записывать в матрицу три набора чисел - три канала (red, green, blue). Чем бОльшую разрядность имеет канал, тем выше точность цветопередачи. Однако есть ограничения на разрядность канала, так как с увеличением разрядности увеличивается объём файла сканобраза. Для решения этой проблемы в настоящее время используются различные форматы представления, имеющие или не имеющие алгоритмы сжатия изображения:
• JPEG
• RAW
• TIFF

Формат JPEG

Формат JPEG наиболее часто используется для просматривания изображений человеком, так как основан на свойстве человеческого глаза, который не распознаёт нерезкие изменения цветности. Поэтому алгоритм сжатия информации, используемый в формате JPEG, сжимает файл за счёт усреднения информации о цветности и яркости в группах соседних пикселей. Плюс такого сжатия - уменьшение веса сканобраза без потери качества восприятия. Минус - невозможность использования сжатого файла для дальнейшей обработки, так как при каждом новом сохранении в нем происходит накопление ошибок сжатия с потерями - уменьшение резкости, появляется пикселизация, уменьшается количество цветов. То есть идеальное использование формата JPEG - просмотр сканобразов с помощью электронных устройств.

Формат RAW

Дословно RAW переводится как «необработанный» или «сырой». Его особенность в том, что он позволяет делать фотографии без потерь в качестве и деталях. При сканировании можно смело пользоваться автоматическим балансом белого. Затем можно без какого либо ущерба для изображения настроить температуру сканобраза, сделав оттенок снимка теплее или холоднее. Формат RAW дает возможность также без потерь качества увеличивать или уменьшать экспозицию снимка.
Можно увеличивать размер сканобраза для печати в высоком разрешении особо ценных документов с угасающим текстом. Это не идеальное решение для такого подхода, но по крайней мере на сканобразе не будет цифровых шумов, появляющихся при сжатии в JPEG формат. Большим плюсом является возможность пакетной обработки полученных изображений, например, создания набора пресетов с настройками цветокоррекции и применения любого из них к целой группе RAW файлов. Кроме того, обработка RAW-файлов не нарушает целостность самого снимка. Все конфигурации коррекции снимка сохраняются в отдельном файле и всегда есть возможность вернуться к первоначальному варианту или всё кардинально переделать.
Файлы RAW можно обрабатывать и пересохранять множество раз и качество от этого не пострадает. Существенно повышающим значимость перспектив этого формата является его свойство первичности. То есть любая обработка RAW-файла не предполагает какую либо запись информации. Его можно лишь открыть, применить необходимые изменения, после чего сохранить результат в формате JPG или TIFF. Такое свойство сканобраза в RAW формате позволяет рассматривать его как юридически значимый документ, что ранее было возможно только при использовании методов оптического микрофильмирования и никак не применялось к электронным копиям.

Формат TIFF

Этот формат применяется для создания мастеркопии документа - сканобраза первого уровня. Используя формат TIFF без сжатия, мы получаем максимум достоверной информации, снятой с бумажного оригинала. Формат используется достаточно давно и по умолчанию стал практически стандартом для представления электронных копий бумажных документов. Как и все в нашем мире, формат развивается, и на текущий момент также имеет несколько алгоритмов сжатия, наиболее востребованным из них является алгоритм сжатия LZW. Кроме того, формат TIFF может быть многостраничным, то есть содержать несколько изображений. Это удобно с точки зрения создания небольших документов, имеющих несколько страниц. Документы с большим количеством страниц в многостраничном формате хранить неудобно, так как объём файла возрастает пропорционально и становится неудобен для отображения.

2.2. Векторный способ записи сканобраза

Векторный способ записи характеризуется тем, что изображения в нем представлены в виде наборов геометрических фигур, заданных формулами (pdf файл).
PDF (от англ. Portable Document Format) - это специальный формат электронных документов, который не зависит от выбранной ОС, программы просмотра электронных документов или еще чего-нибудь. Он единый для любого устройства. Все, что нужно для открытия документов в этом формате - программа просмотра. Этот формат считается признанным общемировым стандартом в области тиражирования и обмена защищенными электронными документами. Из плюсов формата - файлы Adobe PDF имеют небольшой размер, допускают совместную работу, просмотр и печать с помощью бесплатной программы Adobe Reader®.
Документы PDF могут содержать интерактивные ссылки и кнопки, поля форм, аудио- и видеоэлементы, а также бизнес-логику. Файлы PDF можно подписывать в электронном виде, а также без труда открывать в ОС Windows и macOS с помощью бесплатного приложения Acrobat Reader DC. Все файлы PDF соответствуют стандартам для обмена электронными документами, включая специальные:
PDF/A - для архивов
PDF/E - для проектирования
PDF/X - для печати.

Сканобразы бумажных документов можно сохранять в формате PDF/А и получать оптимизированные файлы для удобного поиска, обмена и хранения. В Adobe PDF используется технология OCR (оптическое распознавание символов), которая позволяет редактировать отсканированные документы и добавлять в них комментарии. В результате получается своего рода «сендвич» - верхняя часть включает в себя сканобраз бумажного документа, а нижняя часть - гипертекст, по которому можно осуществлять поиск стандартными средствами просмотра PDF файлов, например программой Adobe Reader. Таким образом наиболее удобно сканировать документы машинописного текста, например постановления администрации, и организовывать полноценный поиск внутри документа. Кроме всего прочего, основные сведения о документе, такие, как заголовок, автор, тема и ключевые слова могут быть заданы создателем документа в исходном приложении, например Word, ну или создателем документа PDF. Для обнаружения конкретных документов можно выполнять поиск по этим элементам описания. Раздел «Ключевые слова» может быть особенно полезным для сужения области поиска.

3. Профайл сканера

Профайл сканера описывает цветовые характеристики устройства и еще ряд параметров, необходимых для дальнейшей обработки файла. То есть, можно сказать, что профайл - это «отпечаток пальца» устройства. Нет двух устройств с абсолютно идентичными профайлами. Но достаточную степень идентичности разных устройств можно достичь применением калибровки. Сам по себе профайл позволяет компьютеру связать информацию, полученную от сканера, то есть числовые коды пикселя со спектром. В результате этого сопоставления на экране компьютера мы видим определенный оттенок цвета. В настоящее время наиболее распространены два профайла: Adobe RGB и sRGB.


Графическое отображение цветовых форматов.

Из рисунка можно понять, что Adobe RGB - это большее цветовое пространство, чем sRGB, поскольку оно содержит больше вариантов цветовых тонов. Это одна из причин того, что профайл Adobe RGB широко используется фотографами - они могут отображать больше цветов по сравнению с sRGB. Для размещения в сети Интернет и отображения электронных сканобразов на мониторах пользователей лучше всего использовать формат sRGB, так как он не меняет цвета при размещении.

4. Конструктивные особенности

Существуют несколько типов сканеров, различаемых по конструкционным особенностям, которые используются для оцифровки документов на бумажных носителях. Основное различие в конструкции вытекает из стоящей перед сканером задачи. Для точного определения типа используемого сканера надо ответить на 2 вопроса:

4.1. Способ сканирования (контактный или бесконтактный).
4.2. Формат документа, предназначенного для оцифровки.

В зависимости от ответов на эти вопросы мы можем выбирать для работы определенный тип сканера. Рассмотрим различные варианты ответов подробнее.

4.1. Способ сканирования.

Контактный способ предполагает физическое взаимодействие сканера и документа, наиболее распространёнными сканерами этого типа являются поточные. Их различают по формату (А3 или А4), скорости сканирования и типу - одностороннее или двустороннее сканирование. Поточные сканеры формата А4 наиболее востребованы в юридических и нотариальных конторах, где основная масса документов стандартизована и имеет одинаковый размер. Поточные сканеры формата А3 используются для оцифровки любых документов, содержащих сдвоенные листы А4 - различные ведомости, небольшие карты и схемы местности. Такие документы в основном можно встретить в муниципальных архивах, это Постановления глав местных администраций, связанные с приватизацией жилья. Примеры таких сканеров - линейка поточных сканеров Panasonic, начиная со старшей модели KV-S8147 и любой младший сканер из этой линейки. Механизм работы поточного сканера основан на том, что сканирующий элемент находится близко к тексту документа, и документ «протягивается» мимо сканирующего элемента при одностороннем сканировании, либо между двух скандирующих элементов при двустороннем. Поскольку в таком случае влияние внешнего освещения и неравномерного расположения документа сведены к нулю, то и сканобраз, полученный при таком способе сканирования практически не содержит искажений и является точной копией оригинала.

4.2. Формат документа

Формат документа накладывает ограничения на используемые сканеры, если он нестандартный (например узкая, но длинная склейка из стандартных листов) или документ имеет формат больше А3 (например чертежи). Первый вариант встречается при оцифровке архитектурных бюро или постановлений муниципалитетов времён приватизации земельных участков. Такие документы обычно не «возрастные», их проще всего оцифровывать поточным сканером, например упоминавшимся ранее Panasonic KV-S8147 (в ширину до формата А3, в длину - до 6 м). Если документ имеет формат более А3, то его нужно оцифровывать профессиональными сканерами соответствующего размера. Если это чертёж, можно использовать протяжный широкоформатный сканер, например WideTEK 36CL (любые форматы до А0). Использование поточных сканеров позволяет получать довольно точные сканобразы документов, что даёт возможность проводить уверенное распознавание символов машинописного текста и создавать базы данных с организацией поиска как внутри документа, так и по всей базе. Но существует целый класс документов, к которым плюсы поточных сканеров применять нельзя - это документы особой ценности. Такие документы должны оцифровываться бесконтактным способом, что подразумевает использование планетарных или, в редких случаях, проекционных сканеров. Главное преимущество планетарного сканера по сравнению с проекционным - это наличие регулируемой поверхности для размещения документов. Как правило, планетарные сканеры в своей конструкции имеют так называемую «колыбель» - стандартизованную по размеру поверхность, состоящую из двух отдельных панелей. Колыбель имеет изменяемый угол раскрытия панелей и адаптирована к различной толщине документа. Створки (панели) колыбели могут быть зафиксированы в различном положении, либо фиксированном, либо настраиваемом. Такая конструктивная особенность позволяет планетарному сканеру оцифровывать сброшюрованные документы с неполным раскрытием и толщиной корешка до 50 см (у старших моделей) без риска повреждения переплета. Стандартная область оцифровки планетарного сканера - формат А2+, то есть чуть более размеров формата А2, но есть модели с возможностью оцифровки любого формата вплоть до 2А0.
Последний вид сканеров из нашей классификации - проекционные. В основном используются для мобильного развертывания выездной лаборатории сканирования, из-за небольших размеров и веса. Минусы проекционных сканеров - небольшой формат сканирования (до А3) и ограниченная цветопередача.
Таким образом, оцифровка документов на бумажных носителях предполагает использование разных сканеров для разных видов документов. Основные закономерности отражены в таблице ниже:

Тип документа Тип сканера Примечание
1. Рукописный текст
1.1 метрические книги, ревизские сказки, Документы дореволюционного возраста (формат А5~A2) Планетарный
1.2. Книги ЗАГС (формат А5~А3) Проекционный
2. Машинописный текст (Постановления, Решения и и.д.)
2.1. Расшитые Документы после 1993 года Поточный
2.2. Расшитые Документы советского периода Проекционный
2.3. Документы на нестандартной бумаге (калька) Проекционный
2.4. Нерасшитые документы Проекционны
Made on
Tilda