пятница, 24 октября 2014 г.

YAGF — графическая оболочка для CuneiForm (оптическое распознавание отсканированного текста)


CuneiForm — это программа для оптического распознавания текста документов в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах и сохранять в популярных форматах, проводить по ним полнотекстовый поиск. Однако для Linux имеется только консольная версия программы, поэтому гораздо удобнее пользоваться вместе с фронт-эндом YAGF.


Оболочка YAGF — Yet Another Graphical Front-end for CuneiForm предоставляет графический интерфейс для консольной программы распознавания текстов CuneiForm на платформе Linux. Кроме того, YAGF позволяет управлять сканированием изображений, их предварительной обработкой и собственно распознаванием из единого центра. Программа YAGF также упрощает последовательное распознавание большого числа сканированных страниц.
Программа CuneiForm имеется в стандартном репозитории Ubuntu, а вот для YAGF необходимо подключить один из дополнительных репозиториев:
ppa:alex-p/notesalexp
или
deb http://archive.getdeb.net/ubuntu natty-getdeb apps
и установить с помощью Центра приложений Ubuntu.
Для работы YAGF необходим пакет проверки орфографии aspell и словари соответствующих языков (aspell-en, aspell-ru и т.д.). Если вы хотите управлять сканированием изображений напрямую из YAGF, установите программу XSane. Для распознавания текста потребуется, естественно, программа CuneiForm.
yagf_1.jpeg
Работа в YAGF состоит из нескольких этапов: получение изображения (серии изображений) страниц; подготовка к распознаванию (если необходимо); распознавание; сохранение результатов.

Получение изображений

Вы можете использовать файлы изображений, сохраненные на жестком диске, или отсканировать новое изображение. Для того чтобы загрузить изображение, воспользуйтесь командой Файл/Открыть (вы можете открыть несколько файлов сразу). Вы также можете перетащить графически файлы мышью на темную полосу в левой части главного окна программы, в результате чего они будут загружены в программу. YAGF поддерживает все основные растровые графические форматы (JPEG,PNG, BMP, TIFFGIF, PNM, PPM, PBM и другие). Если имя открытого файла имеет вид nameXXX.ext, где XXX - последовательность цифр, вы можете переходить к предыдущему/следующему файлам с помощью кнопок перехода, расположенных на панели быстрого доступа. Например, если вы открыли файл MyPage001.jpg, то при щелчке кнопки перехода к следующему изображению программа попытается открыть файл MyPage002.jpg.
yagf_2.jpeg
Вы можете получать изображения напрямую со сканера с помощью программы XSane. Находясь в YAGF, скомандуйте Файл/Сканировать. Будет запущена программа XSane. Настройте параметры сканирования в XSane и нажмите кнопку «Сканировать». По окончании сканирования в окне просмотра изображений YAGF появится отсканированное изображение. Если вам нужно отсканировать несколько изображений, выполняйте эти операции несколько раз (в окне просмотра изображений всегда будет открыто последнее отсканированное изображение, вы можете перейти к предыдущим изображениям, используя команды перемещения). Вы можете работать в YAGF, не закрывая окно XSane. Если вам нужно отсканировать очередное изображение, просто щелкните кнопку XSane «Сканировать». При выходе из YAGF открытое программой окно XSane будет закрыто автоматически. Для перехода к другим отсканированным изображениям пользуйтесь кнопками с панели быстрого доступа, как было описано выше. Все полученные изображения отображаются в уменьшенном виде на панели изображений в левой части главного окна программы. Вы можете сохранить эти изображения в отдельную директорию с помощью кнопки «Сохранить».

Подготовка изображений

В YAGF вы можете выполнять простые операции подготовки отсканированного изображения: выделение блока текста для распознавания и поворот. Если изображение ориентировано неправильно, его можно повернуть на 90 градусов по и против часовой стрелки или на 180 градусов. Делается это с помощью кнопок панели быстрого доступа в окне просмотра изображений. Если вы хотите передать на распознавание не все отсканированное изображение, а его часть, вы можете выделить мышью один или несколько прямоугольных блоков в окне просмотра изображений. Если щелкнуть левой кнопкой мыши по существующему блоку, его цвет изменится на розовый. Теперь размер выбранного блока можно изменить, «ухватившись» мышью за край блока. Если щелкнуть в окне изображения правой кнопкой мыши, появится контекстное меню, с помощью которого можно удалить все выделенные блоки, удалить выбранный блок, распознать текст выбранного блока. Для удобства выделения блоков вы можете уменьшить или увеличить размеры изображения в окне просмотра (эта операция не влияет на размеры изображения, передаваемого программе CuneiForm). Изменение видимых размеров изображения можно выполнить так же с помощью комбинаций клавиш Ctrl++ и Ctrl+- или вращая колесико мыши, удерживая при этом клавишу Ctrl (точно так же можно изменить размеры шрифта в окне просмотра текста).
yagf_3.jpeg
Если в программе открыто несколько страниц и для каждой выбраны своя ориентация, свой масштаб и выделены свои блоки, YAGF запомнит эти параметры для каждой страницы.
Если страница отсканирована неровно, с наклоном, вы можете попробовать исправить наклон с помощью новой функции «Исправить наклон страницы». Для этого нажмите соответсвующую кнопку.

Распознавание

Приступая к распознаванию, вы должны выбрать подходящий язык распознавания (или пару языков, если распознаваемый документ написан на нескольких языках). Основная версия CuneiForm позволяет вам распознавать тексты почти на всех европейских языках, а также тексты, содержащие пару языков русский-английский.
Каждый новый распознанный фрагмент текста (выделенный блок или новая страница) добавляется в редактор распознанного текста в виде нового абзаца.
По умолчанию YAGF выполняет проверку орфографии распознанного текста с помощью libaspell. Обычно в вашей системе устанавливаются орфографические словари для «родной» локали система и английского. Если вы хотите проверять орфографию для текстов на других языках, установите соответствующие словари . Если YAGF не находит нужного словаря для проверки орфографии для заданного языка распознавания, программа предупреждает вас об этом. Отключите проверку орфографии, если не хотите получать такие предупреждения.
Если вам нужно распознать текст сразу с нескольких изображений, вы можете воспользоваться пакетным распознаванием. Для этого все изображения, которые требуется распознать, должны быть открыты на панели изображений (в левой части окна программы). Щелкните кнопку «Распознать все страницы». Все открытые изображения будут загружаться и распознаваться автоматически. При этом будет выведено диалоговое окно, отображающее прогресс распознавания. Вы можете остановить процесс пакетного распознавания, щелкнув кнопку «Прервать». Если на распознаваемых страницах выделены блоки, будет распознан только текст внутри блоков.
yagf_4.jpeg

Сохранение результатов

Распознанный текст может быть сохранен на диске в текстовом формате (кодировка UTF-8), в формате HTML или скопирован в буфер обмена. Кнопка «Копировать текст в буфер обмена» копирует в буфер выделенный фрагмент распознанного текста или весь текст, если в редакторе отсутствует выделение.
yagf_5.jpeg
Использованы материалы с сайта: yagf-ru.html

Комментариев нет:

Отправить комментарий