Loading...
Error

Распознавание документа в FineReader

Ответить на тему
 
Автор Сообщение

golma1

Стаж: 7 лет 9 месяцев

Сообщений: 498

Германия

Режим только чтение: НЕТ

post 07-Окт-2009 11:33

Quote

Распознавание документа в FineReader

У вас есть документ в формате pdf, djvu или просто сканы? Для их распознавания удобно использовать программу FineReader.
Для работы с программой FineReader необходимо иметь MS Office Word!!!

Пару советов новичкам. В качестве примера взят FineReader 9.0.

1. Открыть документ.
Выберите документ для распознавания. ФР откроет все страницы, одновременно распознавая их.

2. Определить области распознавания.
В хороших сканах, а также во многих pdf и djvu файлах области распознавания расположены приблизительно одинаково.

Выберите наиболее характерную страницу и выделите типичную область распознавания. На странице будут и другие, ненужные нам области. Как правило, это - номер страницы, колонтитулы и пр. Удалите их, оставив только главную область распознавания.
Увеличьте её немного во все стороны, так чтобы при незначительных смещениях текста она всё равно перекрывала бы его полностью.
Конечно, кое-где придётся потом подправлять, но основная работа будет сделана.

3. Сохранить шаблон областей.

В меню "Области" выберите пункт "Сохранить шаблон областей". Дайте ему название и сохраните, находясь на той самой "типичной" странице, где вы работали с областью распознавания.

4. Применить шаблон областей.

В меню "Области" выберите пункт "Загрузить шаблон областей". Выберите сохраненный в предыдущем шаге шаблон и запустите его. Обратите внимание, чтобы в строке "Применить к" (под типом файла) было отмечено "Всем страницам".

5. Проверка областей распознавания.

Просмотрите несколько страниц, проверяя, насколько хорошо применённый шаблон перекрывает текст для распознавания. Если необходимо, повторите шаги 2-4.

6. Распознавание.

Если результат предыдущего шага вас устраивает, нажмите "Распознать документ" (Ctrl+Shift+R).

7. Вычитка.

Самый трудоемкий процесс. Опишу, как это делаю я.
Просматриваю все страницы. Листать удобно при помощи Alt+Down Arrow(стрелка вниз).
Все названия глав, цитаты, стихи, эпиграфы "отбиваю" двойной пустой строкой. Знаю, что некоторые пользуются для этого специальными знаками, как правило, не встречающимися в тексте (например, # - одиночный или двойной).
Особое внимание уделяю "неуверенно распознанным символам", которые выделяются цветовым фоном. Вношу необходимые изменения.

Кстати, сочетание клавиш вы можете выставить через меню "Сервис", пункт "Настройка". А цвета для выделения разных областей и символов - в том же меню, пункт "Опции", закладка "Вид".


Сноски в конце страницы переношу к слову, к которому они относятся, заключая их в фигурные скобки (это в дальнейшем поможет при форматировании fb2-файла).
Со сносками в конце книги приходится повозиться подольше. Как правило, они даются с указанием страницы. Копирую их все в текстовый файл и переношу по очереди к нужному месту, всё так же заключая в фигурные скобки. Удобно при этом иметь открытыми два окна рядом.

8. Чистка текста (подсказал TaKir).

Удаление лишних дефисов.
Меню "Правка", пункт "Заменить" (Ctrl+H):
В "Найти": ввести дефис и знак разрыва строки ^l (вводится при помощи выпадающего меню рядом с полем для введения)
В "Заменить на": ввести знаки мягкого переноса и разрыва строки ^-^l (вводится при помощи такого же выпадающего меню).
Поставить "галочку" в "Искать на всех страницах документа" и "Вперед".
Начать поиск с первой страницы, заменяя там, где нужно, дефис в конце строки на мягкий перенос.

Поиск склеенных абзацев.
Включить "Непечатаемые символы" (для наглядности).
Поочередно пройтись по тексту, начиная с первой страницы, со следующими сочетаниями для поиска (Ctrl+F):
точка+разрыв строки
двоеточие+разрыв строки
восклицательный знак+разрыв строки
вопросительный знак+разрыв строки
точка с запятой+разрыв строки (при перечислениях)
особое внимание уделить стихам

Везде, где надо, заменить разрыв строки на новый абзац, нажав "Enter".

9. Сохранить текстовый документ.

Выберите в окне "Текст" в выпадающем меню "Форматированный текст" и нажмите на стрелочку возле кнопки "Передать". Выберите там "Передать все страницы в...".
Готово!
Сохраните готовый документ.

Все дополнения и поправки к тексту благодарно принимаются. ab
Вне форума Profile PM

Alexg0r

Стаж: 5 лет 10 месяцев

Сообщений: 1

Режим только чтение: НЕТ

post 30-Май-2011 22:09 (спустя 1 год 7 месяцев)

Quote

Дополнение к п. 8.
Настоятельно рекомендую обработать текст в MS Word на:
- пустой абзац (найти два символа конца абзаца и заменить на один символ конца абзаца, повторять поиск и замену пока не выдаст сообщение о том что выполнено 0 замен)
- пустое пространство (найти спец символ "пустое пространство" и заменить на 1 пробел)
- пробелы в начале и конце абзаца (ищем пробел+абзац или абзац+пробел и меняем на абзац)

После распознавания этого мусора может быть значительное количество. У меня иногда размер текста уменьшался на 10 - 15%.
Вне форума Profile PM

Alicia

Стаж: 3 года 7 месяцев

Сообщений: 1

СССР

Режим только чтение: НЕТ

post 01-Окт-2015 21:44 (спустя 4 года 4 месяца)

Quote

Для обработки лучше всего подходит LibreOffiсe с модулем OOoFBTools, который добавляет дополнительные панели инструментов и пункт в строку меню LibreOffice Writer. Перед экспортом документа в формат FictionBook (FB2) есть множество функций для форматирования текста, так же доступно преобразование изображений.
Из дополнительных функций у OOoFBTools имеется корректор текста, инструмент склейки строк и абзацев, обработчик множественных пробелов и табуляций, поиск ошибок при распознавании текста (OCR) и многое другое...
Вне форума Profile PM
Показать сообщения:    
Ответить на тему

Текущее время: 26-Апр 05:03

Часовой пояс: GMT + 3



Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Рейтинг торрент трекеров - UpTracker.ru Анализ веб сайта Яндекс.Метрика
службы мониторинга серверов