Krot66
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
CN Organizer - скрипт Autohotkey, расширяющий функции CintaNotes Помимо исправленных багов и улучшенной совместимости с программами, по сравнению со старой версией изменения в следующем: 1. Добавлена возможность оптического распознавания текста с помощью Tesseract OCR, дающая возможность делать заметки из лишенных текстового слоя pdf и djvu книг, защищенных от копирования документов и страниц, текстовых картинок и пр.. Качество распознавания довольно приличное, поддерживаются двуязычные тексты. Для улучшения рекомендуется использовать естественный масштаб документа и выделение текста с минимальными полями. Качество распознавания резко падает при обработке менее пяти-шести строк текста, поэтому часто бывает лучше не экономить на выделении, а после удалить лишнее. Помимо CintaNotes, скрипт может быть использован как простое и удобное приложение для распознавания скриншотов, поиска и перевода полученного текста, имеющее ряд дополнительных возможностей. Как это работает. Зажимая Shift, щелкаем средней кнопкой мыши. Под курсором появляется прямоугольное полупрозрачное окошко. Перетаскивая его мышью и масштабируя за углы и края, накрываем интересующий участок текста. Щелчок правой кнопкой мыши по окну выделения - подтверждение, Escape или щелчок правой кнопкой вне окна - отмена операции. После секундного размышления появляется окно с распознанным текстом: Здесь: Search - поиск выделенного текста в Google. Translate - отправка всего текста в Google Translate. RUS+ENG - выпадающее меню наборов языков распознавания. Можно создавать собственные наборы языков из числа имеющихся языковых пакетов (смотри "Настройки OCR" скрипта). Выбор другого языка перезапускает процесс распознавания и сохраняется до следующего запуска. Add to next - запоминает распознанный текст и добавляет его автоматически при следующем распознавании. Это позволяет собирать в одну заметку текст из нескольких кусков, что удобно, например, при конспектировании или обработке текста, расположенного на границе двух страниц, где распознавание в один прием невозможно. Delete old - удаляет старые, созданные клавишей Add to next фрагменты и оставляет только текущий. OCR history - выпадающее меню, в котором можно скопировать в буфер любой из распознанных с момента запуска скрипта фрагментов. Sep - чекбокс, управляющий удалением разделителей фрагментов, имеющих вид "### Дата Время Имя документа или страницы ###". По умолчанию (это можно изменить в настройках) при копировании или создании заметки разделители удаляются и фрагменты идут встык. При конспектировании их можно оставить для разделения цитат и указания источников. Undo - возвращает окно к виду, бывшему при последнем закрытии. Copy - копирование текста окна. CintaNotes - отправляет распознанный текст в новую заметку CintaNotes с оригинальным заголовком, при этом окно c распознанным текстом закрывается автоматически. (Тот же результат дает нажатие Ctrl+F12). Нажатие RShift+F12 открывает его вновь с текстом, бывшем в нем на момент закрытия. Если при открытом окне распознавания использовать скриптовое сочетание клавиш (RCtrl+RShift+клавиша), будет создана заметка в оответствии со связанными с клавишей правилами. При этом сгенерированные переменные ($title, $cmd, $cmt, $proc) будут относиться к исходному окну распознаваемого документа. Собранный набор скрипт+Tesseract OCR с 5-ю великими европейскими языками можно скачать здесь Чтобы сделать все самостоятельно, идем сюда, качаем tesseract-ocr-3.02-win32-portable.zip и потребные языковые пакеты. Распаковываем дистрибутив и помещаем папку Tesseract-OCR в каталог скрипта. В нее же распаковываем архивы языковых пакетов. Если удалить множество ненужных файлов и папок, в итоге должно получиться дерево примерно такого вида: |-- Tesseract-OCR <DIR> | |-- tessdata <DIR> | | |-- deu.traineddata | | |-- eng.traineddata | | |-- fra.traineddata | | |-- rus.traineddata | | |-- spa.traineddata | |-- tesseract.exe |-- CN Organizer.ahk 2. Добавлен функционал для изучения языков (собственные словари изучаемых слов и словосочетаний), а так же алфавитных каталогов терминов, энциклопедических статей и пр.. Для этого используется переменная $dict. При ее использовании начальная часть статьи идет в заголовок заметки, а сама переменная заменяется первой буквой в верхнем регистре. Так если добавить в конфигурационный файл строку "1,English/%dict,F5", при нажатии RCtrl+RShift+F5 из словарной статьи со словом godspeed в 1-й секции будет создана заметка с заголовком godspeed и тэгом English/G. Имеет смысл выделить для таких каталогов отдельную секцию с сортировкой заметок по алфавиту. ВАЖНО: для правильного отображения знаков транскрипции следует открыть файл настроек cintanotes.settings (каталог скрипта для портативной версии или Application Data\CintaNotes для инсталлятора) и в параметре app.mainframe.notetextfont заменть Verdana на Tahoma или любой другой шрифт, установленный в системе и имеющий соответствыющий набор символов. Скрипт | Всего записей: 1254 | Зарегистр. 10-12-2007 | Отправлено: 15:22 08-04-2015 | Исправлено: Krot66, 17:33 08-04-2015 |
|