|
||
|
||
|
Православный обзор: Проект размещен Баннерная сеть
|
||
1. Сканирование текстаПолучить текст с печатного источника в электронном виде можно с помощью специальных программ оптического распознавания текстов (OCR). В качестве такой программы весьма удобно использовать FineReader. Для начала распознавания следует отсканировать оригинал с разрешением 300 dpi. Программа FineReader оптимизирована для работы именно с таким разрешением. При этом следует подбирать яркость, так, чтобы на полученном монохромном изображении, с одной стороны, буквы не были слишком "тонкими", а, с другой стороны, не появлялся "мусор" и черные пятна. Подбор яркости (для "серого" изображения) можно доверить программе распознавания в автоматическом режиме. Подробнее в статье "Сканирование печатных изданий". 2. Язык распознаванияНастройка программы FineReader 6.0 для сканирования церковнославянских текстов начинается с создания пользовательского языка. Для этого следует вызвать через меню "Сервис" окно редактора языков, затем создать на базе русского языка язык ЦСл. Следующим этапом является определение алфавита языка, в основу которого положен формат HIP:
После чего определяются: Кроме того, следует задать пользовательский словарь. Словарь можно получить с сайта Библиотеки святоотеческой литературы отсюда. Для успешной работы со словарем необходимо добавить в начало файла строку следующего содержания: Можно не создавать язык, а использовать его из предложенного пакета. Тогда в окне редактора языков следует указать путь к этому пакету в графе "путь к пользовательским языкам и словарям". 3. Редактирование текстов в формате HIPДля набора и редактирования текстов в формате HIP требуется нестандартная раскладка клавиатуры. Один из вариантов рассматривается в статье Раскладки для редактирования церковнославянских текстов, там же его можно скачать . 4. Обучение эталонаДля того, чтобы получить возможность распознавать тексты на церковнославянском, нужно обучить пользовательский эталон (если не действуют имеющиеся) через вкладку Сервис\Опции\Распознавание\Обучение. Важно проследить, чтобы был отключен флаг "Использовать встроенные эталоны". При обучении не рекомендуется обучать одну и ту же лигатуру несколько раз (достаточно, как правило, 1-4 раза). После того, как основной набор языка уже обучен, можно прогнать программу по нескольким страницам, затем найти те лигатуры, которые оказались не обучены. Чтобы правильно их дообучить, нужно выделить слово (содержащее лигатуру) вместе с несколькими соседними, в отдельный блок, затем распознать эти блоки с обучением. Чтобы повторно не обучать символы, можно использовать кнопку "Пропустить".
Большой эталон, рассчитанный на самые разные церковные издания, можно скачать с сайта Библиотеки святоотеческой литературы отсюда. 5. РаспознаваниеПеред распознаванием текстов нужно убедиться, что во вкладке Сервис\Опции\Распознавание\Тип страницы отключен флаг "Очищать фон". К сожалению, программа FineReader не воспринимает правильно символы переносов в конце строк. Поэтому после распознавания следует заменить все дефисы "-" на знаки мягкого переноса.
|
||