kamenkapenza
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Цитата: ну что ж, напишу мануал по встроенному OCR через tesseract, пока все помню что бы откликалось в поисковике яндекса : "Как распознать текст через встроенный OCR в ScanKromsator", " tesseract" 1. скачать версию ScanKromsator v6.75 (эту версию потому как в шапке на текущий момент добавки для этой версии : ) скачать из шапки "добавки и замечания к v6.75 от bolega" архив sk6.75-add.rar, правда там папка 6.72 2. все файлы/папки из архива sk6.75-add.rar кинуть в папку с экзешником ScanKromsator 3. настроить путь до , файла "\tessdata2\rus.traineddata"" в меню SK "FILE->Options..->Apps->Tesseract" указать на данный файл 4. в "Page->special->More2->OCR Languares" отметить чекбокс Russian, English , отмечать обязательно с удержанием кнопки Ctrl !!! 5. OCR работает только с BW файлами , выбрать в Files->Color - B/W 6. сохранить как task и Закрыть-Открыт SK , с сохраненным task ......добавляем наши сканы... меняем остальные настройки как нужно нам.... 7. Генерим выходной TIFF B/W 8. Генерим выходной tocr (SCAN_0001.tif.tocr) - Result->OCR output files->All 9. если нужен цветной TIFF , то меняем B/W на цветной , генерим TIFF на выход 10. смотрим через встроенный вьювер , во вьювер вызывая OCR через - правый клик->Special->OCR page , наводим на слова , распознанное слово должно всплывать желтым текстовым хинтом в ScanKromsator v6.8 есть прямо опция PDF сгенерить с OCR но распознавание в v6.8 с комплектом sk6.75-add.rar - запустить не удалось, распознавание не работает поэтому PDF создается без текстовой подложки может будут всплывать сообщения о недостающей DLL или не указан язык или нет папки - значит что то не доделали по пунктикам, конечно касательно версии sk6.75. может кому то поможет в раскопках по вопросу "как распознать текст в ScanKromsator" | Цитата: serg28serg Цитата: запустить не удалось, распознавание не работает Попробуйте продолжить последовательность: 11. File > Create out task 12. В out-task задаем output format=pdf, задаем имя файла, ставим галку на Add ocr 13. Генерим pdf: т.е. process all или для проверки process current page На выходе будет pdf с OCR слоем. | Эх! Некому всё это в ролике показать, было бы наглядное пособие по созданию pdf с ocr-слоем. Заодно продемонстрировали,что такое tesseract, про него только человек 15 знают, не более. djvu-книгу я создаю так (нашел самый быстрый оптимальный и качественный способ: 1. После обработки файлов TIFF в Кромсаторе сохраняю задание под определенным именем - субтаск с этим именем - Тулс - Создание джву с установленными параметрами качества файла. 2. Выходной djvu-файл открываю программой Документ Экспресс Эдитор, в ней можно поменять местами страницы,удалить страницы и добавить djvu-страницы извне, если такая необходимость существует. 3. Открываю djvu-файл в Файн Ридере через меню Открыть в ОКР редакторе, распознаю и сохраняю файл с окр слоем так же в формате djvu 4. После выхода с Файн Ридера выходной файл получается раза в 2 по объему меньше оригинального, т.е. Файн ридер съедает качество изображения. 5. Для решения проблемы порчи файла Файн ридером меняем слои, вставляем слой с файла, изготовленного Файн ридером, в первоначальный файл с помощью программы FR11Djvu Text Layer Crutch 0.3.1 6. Оглавление создаем с помощью PdfDjvuBookmarker 7.Pdf-книгу я создавал путем конвертации из готового djvu с помощью программы DjVuToy, в результате получается Pdf-книга с оглавлением, но с текстовым слоем или нет не совсем понятно, потому что в Pdf-файлах неизвестно где находится поиск по тексту. .... поэтому процесс создания pdf-книги с ocr-слоем очень актуален и нужен видеообзор! |