Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » GoldenDict | DSLGD | DSL extension format

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13

Открыть новую тему     Написать ответ в эту тему

BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
GoldenDict + DSLGD v6.26_UI Revolution на основе последней сборки 1.5RC293 + последние изменения.
 
Внимание. Учтите, что текущая версия UI Revolution не на основе свежей версии и здесь нет индиксации словарей для полнотекстового поиска. И если вы решили ее испытать, то после возврата на более новую версию произойдет долгий процесс переиндексации словарей для полнотекстового поиска.
 
- Download: http://d-h.st/9ruJ - инсталлятор GoldenDict на основе сборки 1.5RC476 - (не UI Revolution).
- Download: http://rghost.net/7ZndsMz8R - только exe файл и обновленная библиотека на основе сборки 1.5RC479 - (не UI Revolution).
Эта сборка на основе текущего официального релиза, с постепенно внедряемым и дорабатываемым новым функционалом UI Revolution. Подробности смотрим в топиках ветки, тем более здесь отмечена не всегда текущая версия.
 
- Download: http://d-h.st/Hd5P DSLGD v6.26_UI Revolution на основе официальной сборки 1.5RC293
New:
  • Full-Text Search - Многорежимный полнотекстовый поиск ( RegExp/Wildcard/Enumeration ) для DSL словарей.
  • Многорежимный статистический анализатор текста ( через буфер обмена ): Word Stat/Phrase Search.
  • Реализована совместимость вставки внешних стилей CSS в карточку с компиляцией DSL словарей в формат LCD.
  • Добавлены новые теги DSLGD для составления клиентских карт изображений: [map], [area].
  • Оптимизированы стандартные теги DSL в строну максимальной совместимости и быстроты адаптации DSL <--> DSLGD.

Возможности обновленного интерфейса UI Revolution:
  • Full-Text Search - Многорежимный полнотекстовый поиск: RegExp/Wildcard/Enumeration для DSL словарей.
  • Word Stat - Многорежимный статистический анализатор текста( через буфер обмена ): Word Stat/Phrase Search.
  • Алфавитный указатель DSL  словарей - режим Caption в статистическом анализаторе.
  • DSLGD - расширение формата словарей DSLGD до уровня HTML + CSS + JavaScript + Flash...
  • Поддержка внешних CSS стилей.
  • Поддержка HTML управления и внутренних стилей CSS для тегов.
  • Оптимизированная/сокращенная запись внутренних стилей для тегов.
  • Поддержка MIME-типы, прямая вставка: Flash, SVG, PDF, HTML... контента в словарные карточки. Иными словами для составления словаря можно использовать множество различных редакторов от простых до визуальных с поддержкой языков программирования, сохранить в соответствующем формате, отправить контент в мультимедиа папку словаря и вставить в текст карточки имя файла, обрамив тегом. И карточки могут быть не только информативными, но и интерактивными.
  • Возможность скрытия карточек определенного словаря. Например, для прекращения отображения карточек звуковых библиотек или индексных словарей, карточки которых пусты.
  • Менеджер проектов DSL словарей позволяет автоматически создавать и открыть внешним редактором комплект файлов нового словаря одним кликом мыши. Все, что вам после этого надо - начать создавать карточки.
  • Новая кнопка тулбара - Rescan. Незаменимый инструмент при редактировании словарей и проверки результатов в режиме реального времени.
  • Менеджер журналов с расширенным контекстным меню (буфер обмена).
  • Открытие превью графических объектов внешним въювером, установленным в системе по умолчанию.  
  • Превью длинных карточек.
  • Slide Show - Слайд шоу карточек журнала или режим карточек для заучивания слов.
  • Кликабельное имя словаря в карточке, ссылка ведет на карточку с одноименным заголовком.  
  • Строка поиска вынесена на тулбар. Переключение через контекстное меню панели поиска.
  • Раздельный зум для основного и всплывающего окон. Меню настройки зума - отрывное.
  • Кнопки интерфейса разнесены по разным тулбарам в соответствии с функционалом. Возможность компоновки тулбаров по своему усмотрению.
  • Возможность скрывать кнопки с тулбара.
  • Контекстное меню кнопок тулбара.
  • Кнопка сканирования сохраняет состояние при перезапуске GoldenDict.
  • Однокнопочный режим кнопки Zoom: Левая кнопка мыши - увеличить, Правая - уменьшить. Расширенный набор функций в выпадающем меню.

GoldenDictStart_v3.05 - Учебно-справочный словарь по настройке, функционалу GoldenDict и тегам DSL/DSLGD:
- Download: http://d-h.st/mrr
Для входа на главную страницу словаря набрать в строке поиска - GoldenDictStart.
npp_v6.5.3 - Вспомогательный материл учебно-справочного словаря GoldenDictStart:
- Download: https://www.solidfiles.com/v/QMQrPR587MBnD
NoName - Cтиль для GoldenDict. Вспомогательный к учебно-справочному словарю GoldenDictStart:
- Download: http://d-h.st/BN0
ColapseStyle5in1 - Дополнительные стили режима Collapse на основе lingoes-blue:
- Download: http://d-h.st/57x
IrfanView_v4.37 - Вьювер для GoldenDict:
- Download: http://d-h.st/8Bm
kompozer-0.8b3.ru - Визуальный редактор HTML:
- Download: http://d-h.st/1df
ABC_v1.03 Учебный словарь по транскрипции (Британский вариант):
- Download: http://d-h.st/z2U
Для входа на главную страницу словаря набрать в строке поиска - ABC.
Zubrila_All_v1.51 - Словарь-тренажер по мотивам таблиц Петрова:
- Download: http://d-h.st/Uoj
Для входа на главную страницу словаря набрать в строке поиска - Zubrila.
 
Параллельная ветка:
http://forum.ru-board.com/topic.cgi?forum=5&topic=30250&start=2700#4
Голосовалка:
http://forum.ru-board.com/topic.cgi?forum=5&topic=45768#1
 
GoldenDict.exe - экспериментальный запускной файл GoldenDict с расширенным набором тегов DSLGD + начальной системой конвертации HTML <--> DSLGD. Для корректной работы установите (если не установлен) Latest release: GoldenDict 1.0.1 (32-bit Windows installer, 16MB) http://goldendict.org/download.php и замените файлы в папке установки GoldenDict на файлы из прилагаемого архива.
 
Новый формат DSLGD - расширение формата словарей DSL.
Позволяет с простотой DSL или BB кодов, создавать новые словари или редактировать уже созданные словари формата DSL на уровне HTML + CSS + JavaScript + Flash:

  • Код DSLGD встроен в экспериметальные сборки и не нарушает остальной функционал GoldenDict.
  • Основан на принципе работы с DSL разметкой и BB кодами.
  • Функционал расширен до уровня HTML + CSS + JavaScript + Flash.
  • Сохранена полная совместимость с DSL.
  • Расширены возможности стандартных тегов DSL.
  • Добавлены новые теги.
  • Теги быстрой конвертации HTML <--> DSLGD позволяют быстро добавить код HTML в текст словаря формата DSLGD.
  • Несколько вариантов управления тегами из расширенного и стандартного набора: принцип BB кодов, принцип HTML, сокращенный принцип HTML.
  • Простота управления тегами сведена к минимуму.
  • Позволяет создавать словари с прежней простотой DSL формата.  
  • Возможность использования HTML редакторов при верстке карточек.

Доработаны стандартные теги DSL:
[s], [ref], [url], [Ь], [ i], [ u], [t], [p], [ c], [mN], [ *], [ex], [ sub], [ sup]
 
Расширенный набор тегов DSLGD:
Табличные теги:
[tbl] - тег открытия таблицы.
[cpn] - тег заголовка таблицы.
[tr] - тег строки таблицы.
[th] - тег заголовочной ячейки таблицы.
[td] - тег ячейки таблицы.
 
Теги списка:
[ol] - универсальный тег открытия списка. По умолчанию - нумерованный тип списка - decimal.
[ul] - универсальный тег открытия списка. По умолчанию - маркированный тип списка - disc.
[li] - тег пункта списка.
 
Теги составления клиентских карт изображений:
[map] - тег открытия клиентской карты изображений.
[area] - тег определения активной области для карты-изображений.
 
Тег внедрения скриптов JavaScript:
[js] - тег импорта файла JavaScript или описание JavaScript. Этому тегу соответствует две HTML конструкции:  
<script src=">...</script>.
<script type="text/javascript">...</script>.
 
Дополнительные теги:
[css] - тег вставки файла .css внешнего стиля.
[sn] - строчный тег, аналог HTML тега <span>.
[dv] - блочный тег, аналог HTML тега <div>.
[swf] - тег прямой вставки SWF, HTML, PDF, SVG контента.
[pre] - тег для вставки форматированного текста.
[fs] - универсальный тег свойств шрифта: начертание, насыщенность, размер, фонт.
[d] - перечеркнутый текст.
[o] - надчеркнутый текст.
[ar] - по правому краю.
[ac] - по центру.
[aj] - по ширине, что означает одновременное выравнивание по левому и правому краю.
[btn] - тег кнопки.
[ br]  - тег перевода строки.
[ hr]  - тег горизонтальной линии.
 
Теги быстрой конвертации HTML <--> DSLGD:
<div>, <span>, <font>, <p> (с заменой на pc), <b>, <i>, <u>, <sub>, <sup>, <h0...h6>, <del>, <s> ( c заменой на strike), <strike>, <center>, <a>, <img>, <caption>, <table>, <td>, <th>, <col>, <colgroup>, <tbody>, <tfoot>, <thead>, <tr>, <ol>, <ul>, <li>, <br>, <hr>, <pre>, <button>, <embed>, <object>, <param>.
 
Постепенно систему конвертации можно расширить вплоть до полной совместимости с HTML.
Принцип работы  HTML <--> DSLGD:
- Из HTML страницы выбираем понравившуюся таблицу и вставляем ее в текст DSL словаря.
- Делаем замену:
< - [
> - ]
" - '
- При создании собственных словарей можно обойтись и без подмен. К примеру настраиваем HTML редактор в EmEditor на вывод [ ] вместо < >. Вероятно, можно настроить редакторы на автозамену при вставке HTML кода.
- таблица готова.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 22:15 02-01-2013 | Исправлено: Maz, 13:24 29-03-2021
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Rock попробуйте запустить с ключом --log-to-file. Посмотрите файл gd_log.txt рядом с файлом конфигурации. Может, что прояснится.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 06:14 12-05-2015 | Исправлено: BKSRU, 06:16 12-05-2015
Rock

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
BKSRU

Цитата:
Rock попробуйте запустить с ключом --log-to-file. Посмотрите файл gd_log.txt рядом с файлом конфигурации. Может, что прояснится.

В gd_log.txt только utf8 bom-заголовок -- ef bb bf. Файл размером три байта. Видимо, не судьба.

Всего записей: 1256 | Зарегистр. 10-04-2003 | Отправлено: 12:37 12-05-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Причины ясны. Устраняются.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 14:13 12-05-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
GoldenDict на основе сборки 1.5RC475 + последние поправки - (не UI Revolution) Обратите внимание - это не версия UI Revolution и не официальная сборка.  
- Download: http://rghost.net/8nSm5SChQ - только exe файл + обновленная библиотека.
Дело было в нехватке компонента среды разработки. Нашлись добрые люди, помогли разобраться. Сам код был верен. Пробуем.
 
P.S. Среда собрана на более новых компонентах. Так что перезалил с обновленным файлом DLL библиотеки. Благо такой файлик оказался единственным.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 10:12 14-05-2015 | Исправлено: BKSRU, 16:29 14-05-2015
Rock

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
BKSRU

Цитата:
Дело было в нехватке компонента среды разработки. Нашлись добрые люди, помогли разобраться. Сам код был верен. Пробуем.

А... MinGW. Никогда не понимал, зачем люди его используют. Хотя, у богатых свои причуды...
Да, спасибо, теперь оно работает.

Всего записей: 1256 | Зарегистр. 10-04-2003 | Отправлено: 16:33 14-05-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Инсталлятор GoldenDict на основе сборки 1.5RC476 - (не UI Revolution) Обратите внимание - это не версия UI Revolution и не официальная сборка.  
- Download: http://rghost.net/8hWDHlgMw - инсталлятор собран на основе обновленных библиотек.
Это первый опыт сборки инсталлятора, так что для смелых. Лично у меня никаких проблем переустановка не вызвала.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 20:15 15-05-2015 | Исправлено: BKSRU, 08:27 16-05-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Небольшие секреты работы с менеджером и статистикой.
- Файл титров .srt вы можете бросить прямо в менеджер. Ничего не произойдет и в менеджере его не будет видно. Но открыть этот файл для расчета статистики будет проще. Находиться он будет там куда скинули.  
Не кидайте в менеджер текстовые файлы, ничего хорошего вы не получите, менеджер их исказит.
- Если вы откроете заголовки словаря, то проще экспорт сдеать прямо в любую папку менеджера. В менеджере появится имя которое дано при экспорте и обычно это имя словаря.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 07:53 16-05-2015 | Исправлено: BKSRU, 11:56 18-05-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/8vCChkskB - exe файл + обновленная библиотека.
 
Обратите внимание - это не версия UI Revolution и не официальная сборка. Отладить с ходу такой менеджер с фильтром не просто. Но сделано все возможное, что бы все на текущий момент работало как положенно. Так, что на ваш страх и риск. В какой то мере это база более серьезного проекта. Хотелось бы, что бы была активность по поводу сбоев и несоответствий в сохранении информации и при каких обстоятельствах происходит.
 
New:  
1. Корневой фильтр Статистического анализатора текста (Лемматизация).
2. Реализованы пункты контекстного меню Окна-фильтра: Экспорт списка/Копировать все и другие.
3. Нормализовано создание фильтра из частотного списка с уборкой статистики из строк.
4. Сложение частотных списков.
5. Тултип в заголовке Окна-фильтра, дающий информацию об общем количестве слов частотного списка и процентном соотношении после фильтрации, а так же о языке выбранного морфологического словаря для корневой фильтрации.

Итак о главном:
Корневой фильтр Статистического анализатора текста - приведение списка журнала к более короткому корневому списку однокоренных слов со сложением статистик, основанное на морфологическом словаре соответствующего направления. Тесно взаимодействует с Менеджером журналов и Окном-фильтра. Обладает следующим функционалом:
  • Приведение списка журнала к более короткому корневому списку однокоренных слов со сложением статистик. Такая фильтрация основывается на включенных морфологиеских словарях текущей полки. Выбор языка разбора по корням автоматизирован.
  • Реверс Корневого фильтра.
  • Перерасчет статистики и вывод соответсвующей информации с учетом корневой фильтрации. Информация так же содержит язык выбранного морфологиеского словаря.
  • Экспорт частотного корневого списка.
  • Обеспечена любая сочетаемость сортировки и фильтрации: Filtering/Revers Filtering/Cores Filtering/Revers Cores Filtering/RegExp (WildcardUnix).

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 18:27 30-05-2015 | Исправлено: BKSRU, 14:51 05-06-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Корневой фильтр Статистического анализатора текста (Лемматизация).
Как уже было сказанно служит для приведения списка журнала к более короткому корневому списку однокоренных слов со сложением статистик. Исходный список становится компактнее за счет того, что однокореные слова считаются одинаковыми и приводятся к одному слову. Поиск корней основан на морфологическом словаре соответствующего направления.
Может показаться запутанным делом. Однако все уже сделано за вас и остается только выбрать текст для исследования и нажимать пункты меню. Естественно надо знать и понимать принципы вложенные в статистический анализатор текста и это проще всего осознать на примере.
 
Создание частотного списка текстового файла.
Для начала создадим частотный список текстового файла. Жмем в контекстном меню Окна-менеджера пункт меню New Word Stat и выбираем титры в текстовом формате .srt. Собственно можно выбрать любой интересующий нас текстовый файл. Таким образом получим Статистический список текстового файла. Назовем его Movie1:

Как видим слева и справа у нас одинаковый список. И этот список оригинальный. Слова в нем идут в порядке первой встречи в тексте. Каждое слово в нем показано единажды, справа проставлена цифра (частотность) - сколько раз это слово встречается в тексте. Заметьте в заголовке Окна-фильтра выставлена информация о количестве таких оригинальных слов - 1476. Назовем это список - Чистым списком. Общее же колличество слов в тексте мы получим если сложим частотность каждого слова. Однако, делать нам это не придется, просто наведем курсор мыши на заголовок Окна-фильтра и посмотрим нужную нам информацию:

Всего слов в тексте 6394.
Таким образом у нас есть объект для исследования - частотный список выбранного нами текстового файла со всей необходимой исходной статистической информацией. Этот исходный список неизменен. Дальнейшие эксперименты над ним: сортировка и фильтрация не влияют на него и всегда можно вернуть его в исходное состояние, отключив сортировку и фильтрацию. Однако, вы можете удалять или вставлять новые слова.
Пожалуй, это уже для вас не новость. Но здесь есть кое, что новенькое - Сложение статистик. Создаем частотный список титров текстового формата другого фильма. Назовем этот список Movie2:

Мы хотим сложить статистику Movie2 + Movie1. В контекстном меню Окна фильтра имеется новый удобный пункт меню Copy List. Скопируем частотный список Movie1. Затем просто вставим Paste Items этот список в Movie2. Удобно было отделить контекстное меню:

В результате получим сложение статистик. В этом случае слова Оригинального Чистого списка идут в алфавитном порядке:

В этом списке вы не найдете повторяющихся слов. Если слова одинаковые их частотность складывается. Естественно поэтому цифра в заголовке Окна фильтра не будет прямым сложением количеств слов Movie1 и Movie2. Но вот общая сумма количества слов в двух текстах - цифра во всплявающей подсказке Окна фильтра, как раз будет прямым сложением общих количеств слов в двух текстах. Такие расчеты логичны. Можно просто объединить эти два файла, расчитать статистику и сравнить результаты. Они должны быть идентичны.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 09:33 31-05-2015 | Исправлено: BKSRU, 14:53 05-06-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Однако вернемся к Movie1 и разберемся с сортировкой и фильтрацией.
 
Сортировка и фильтрация частотного списка.
Повторю - реализована любая сочетаемость сортировки и фильтрации: Filtering/Revers Filtering/Cores Filtering/Revers Cores Filtering/RegExp (WildcardUnix). С некоторыми фильтрами уже знакомы. В дальнейшем познакомимся с новыми.
Надо понимать, что сортировка и фильтрация это разные аспекты исследования списков.
Пункты контекстного меню: Ascending, Descending позволяют сортировать исходный список по алфавитному убыванию/возрастанию. Если список частотный, то пункт меню Frequency переключит сортировку по убыванию/возрастанию частотности слов:

 
По поводу фильтрации. На сегодня реализованы режимы фильтрации: Filtering/Revers Filtering/Cores Filtering/Revers Cores Filtering/RegExp (WildcardUnix):
 
Filtering - фильтрация по списку. В Окне-фильтра имеется дежурный файл фильтра Filter и собственно он пустой. Заполнить его можно либо как мы это делаем с обычным журналом, либо превратив любой имеющийся у нас список в фильтр, включая частотный. Воспользуемся вторым способом. В моем распоряжении есть общеизвестные списки наиболее употребимых слов: Oxford3000 и COCA5000. Превратим Oxford3000  в фильтр (исходный список не пострадает). Выберем его в Окне менеджера и выбирем в контекстном меню Turn in Filter. Фильтр создан:

Теперь можно поиграть с нашим частотным списоком Movie1 и фильтрацией. Режим Filtering оставит в исходном списке те слова которые присутствуют в файле списка, в нашем случае созданном из Oxford3000. Reverse Filtering переключит фильтрацию в режим реверса и оставит в исходном списке те слова которых нет в фильтующем списке. Фильтрация может работать совместно с сортировкой:

Обратим внимание на статистическую информацию в заголовке и всплывающей подсказке Окна-фильтра. Она содержит информацию следующего плана:  
Для Чистого списка: Слов в списке после фильтрации(процентное соотношение)/Общее число слов в списке.
Для Общего колличества слов текста: Сумма частот оставшихся слов после фильтрации(процентное соотношение)/Общее число слов в тексте.
Заметьте отличается не только колличество слов, но и процентное соотношение. Постарайтесь самостоятельно понять, почему?
 
Но вернемся на время ко второму частотному списку Movie2. Как уже было сказанно, из частотного списка так же можно создать фильтр. Что мы и сделаем через тот же пункт контекстного меню в Окна менеджера - Turn in Filter:

Как видим, фильтр не только создан, но и очищен от статистической информации. Это, кстати, способ превращения статистического в простой список, который можно сохранить обычным способом под любым именем.
Теперь, используя режимы фильтрации, можно сравнить два частотных списка Movie1 и Movie2. В обычном режиме фильтрации мы можем взглянуть на одинаковые слова, встречающиеся в обоих списках и узнать их количество. В режиме реверса, можно вычислить колличество и посмотреть слова разные для этих частотных списков, которые встречаются только в каждом списке:

 
RegExp (WildcardUnix) - по поводу этого фильтра много пояснять не стоит. Строка ввода поискового запроса находится в заголовке Окна-фильтра. И стоит напомнить, что этот фильтр работает совместо с другими фильтрами и сортировкой:

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 12:13 31-05-2015 | Исправлено: BKSRU, 04:19 01-06-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Наконец мы подошли к Корневому фильтру Статистического анализатора текста.
 
Корневой фильтр статистического анализатора текста (Лемматизация).
Cores Filtering - исходный список становится компактнее за счет того, что однокореные слова считаются одинаковыми и приводятся к одному слову. Однако это слово не обязательно является корнем, хотя и стремится к нему. Так, что полученный список нельзя назвать чисто корневым. Чистый корневой список получить можно, но об этом позже. Основное слово среди однокореных выбирается из исходного списка, руководствуясь следующими принципами:
  • Среди однокреных слов выбирается слово с наибольшей частотностью.
  • Среди слов с одинаковой частотностью выбирается корень, если таковой имеется.

Корневая фильтрация использует морфологический словарь. Поэтому, для корректной работы фильтра необходимо, что бы морфологический словарь необходимой направленности находился на текущей полке словарей и был включен. Хотя при нескольких включенных морфологических словарях на полке, автоматически выбирается нужного направления, рекомендуется отключить иные словари, для более быстрой работы. Далее из контекстного меню Окна-фильтра выбраем пункт Cores Filtering. В результате получим корневой список слов. Режим Revers Cores Filtering покажет слова, которые не вошли в корневой список:

Заметьте во всплывающей подсказке заголовка Окна-фильтра появилась информаци о языке выбранного морфологического словаря для корневой фильтрации.
Как уже не раз было сказанно, сочетаются любые типы сортировки и фильтрации. Например, применим сортировку по частоте и обычную фильтрацию:

Обратите внимание на изменении принципа расчета статистики:
- В Чистом списке расчет ведется уже от колличества слов в списке приведенном к корням (информация в заголовке Окна-фильтра).
- Естественно общее колличество слов не изменилось, зато изменилась сумма частот слов. Частотность каждого слова получена суммированием частотностей однокоренных слов. Соответственно так же изменилось процентное соотношение (информация во всплывающей подсказке заголовка Окна-фильтра).
Возможно сразу осознать это несколько сложно, хотя все логично. Немного неясности вносит то, что в списке для каждого слова проставлена оригинальная частотность, а общая сумма частотности ведется уже от просуммированных частоностей однокоренных слов.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 16:37 31-05-2015 | Исправлено: BKSRU, 14:54 05-06-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Реальный корневой частотный список, который мы собираемся получить обладает большей информативной ясностью.
 
Экспорт списка статистического текстового  анализатора.
Мы еще не исследовали пару новых пункта контекстогоменю: Export List/Export Cores. Мы получили результаты, нам их надо сохранить:
Export List - сохранит список слов с оригинальной частотностью. При включенной сортировке и фильтрации, сортировка будет сохранена, а в экспортный список попадут только те слова, которые были в отфильтрованном списке. Экспортный список создается автоматически рядом с исходным. Вам остается только дать ему новое имя или оставить предложенное по умолчанию:

 
Export Cores - этот пункт контекстного меню появится только при включении Cores Filtering. Сохранит список корней слов. Напротив каждого корня слова будет проставлена сумма частотностей однокоренных слов. При включенной сортировке и фильтрации, сортировка будет сохранена, а в экспортный список корней попадут корни только тех слов, которые были в отфильтрованном списке. Экспортный список корней создается автоматически рядом с исходным. Вам остается только дать ему новое имя или оставить предложенное по умолчанию:

 
В заключении остается добавить, что корневая фильтрация работает и с обычными списками. Только статистика будет несколько иная и частотность не будет проставлена. Список будет компактнее, однокореные слова будут заменены одним словом. Фактически будет выведено общее число заголовков и количество слов после приведения к корням.
 
Поинтересуемся статистикой попадания в корневой список титров нашего кино слов из списка Oxford3000:

В принципе это типичная картина. Реальный процент даже несколько выше, если исходный список немного привести в порядок. Он будет еще выше если сам Oxford3000 привести к корням, что не составит труда.
Если все эти манипуляции провести со списком COCA5000, процент составит 90%.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 21:01 31-05-2015 | Исправлено: BKSRU, 03:38 01-06-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/8vCChkskB - exe файл + обновленная библиотека.
Файл перезалит.
Исправлена ошибка приведшая к невозможности создания новых журналов.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 14:51 01-06-2015 | Исправлено: BKSRU, 15:25 01-06-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/8LGlrKrXt - exe файл + обновленная библиотека.
 
Обратите внимание - это не версия UI Revolution и не официальная сборка. Отладить с ходу такой менеджер с фильтром не просто. Но сделано все возможное, что бы все на текущий момент работало как положенно. Так, что на ваш страх и риск. В какой то мере это база более серьезного проекта. Хотелось бы, что бы была активность по поводу сбоев и несоответствий в сохранении информации и при каких обстоятельствах происходит.
 
New:  
1. Иконка с контестным меню в поисковой строке запроса для регулярных выражений Окна-фильтра.
2. Добавлен режим регулярных выражений - RegExp.
3. Для регулярных выражений добавлен переключатель чувствительности к регистру.

  • Режим регулярных выражений по умолчанию - WildcardUnix. Контекстное меню кнопки строки ввода содержит пункт переключения в режим RegExp.
  • Режим чувствительности регулярных выражений к регистру по умолчанию - CaseInsensitive. Контекстное меню кнопки строки ввода содержит пункт переключения в режим CaseSensitive.
  • Строка ввода имеет подсказку о текущем режиме регулярных выражений. Всплывающая подсказка кнопки и строки ввода напомнит о текущем режиме регулярных выражений и режиме чувствительности к регистру для регулярных выражений.

 
 

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 14:50 03-06-2015 | Исправлено: BKSRU, 15:12 03-06-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Из серии: Небольшие секреты работы с менеджером и статистикой.
 
1. Если вы хотите применить несколько фильтров к списку или не получается достичь желаемого результата с помощью регулярного выражения за один раз, можно сделать это последовательно:
- Выбираем файл списка из которого нам бы хотелось сделать фильтр и собственно делаем его таковым пунктом контекстного меню Окна-менеджера - Turn in Filter.
- Фильтруем исходный список с помощью пункта контекстного меню Окна-фильтра - Filtring. Можно произвести любую комбинацию сортировки и фильтрации: Filtering/Revers Filtering/Cores Filtering/Revers Cores Filtering/RegExp (WildcardUnix).
- Сохранем полученный результат с помощью пунктов контекстного меню Окна-фильтра: Export List или Export Cores, в зависисмости от того хотим ли мы получить список слов присутствующих в исходном списке или список корней.
- Выбираем следующий файл списка из которого хотели бы сделать фильтр и повторяем действия.
 
Конечно можно было бы объединить списки из которых хотели бы сделать фильтр. Однако нам может понадобиться различный набор фильтрации для каждого из них.
 
2. Если нам требуется произвести более чистый статистический анализ частотного списка, можно создать файлы фильтров мусора в которые входили бы следующие слова:
- слова - паразиты, типа: ooh, ahh...
- имена собственные
- буквы оставленные после снятия апострофов и принятые за слова: s, d, t, ll...
Далее применяем эти фильтра и используя пункты контекстного меню Окна-фильтра удаляем или сохраняем список, смотря какие фильтра были применены.
 
Один из таких списков:  
Имена собственные English (United States):
- Download: http://rghost.net/8PyTgTFXS
 
На самом деле если Фильтр имен собственных еще может как то быть интересен для просмотра, то Фильтр мусора стоит сделать единым пополняемый, что бы он не влиял на статистику частотного анализирования текста.
 
3. Несмотря на то, что у фильтра RegExp/WildcardUnix нет режима Reverse его не сложно реализовать:  
- Используем фильтр RegExp/WildcardUnix.
- Удаляем результат с помощью меню Clear, предварительно сохранив исходный список если необходимо.
- Отменяем фильтр RegExp/WildcardUnix и фактически видим результат режима Reverse.
На самом деле подобным образом можно организовать режим Reverse с любой комбинацией фильтров.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 06:02 05-06-2015 | Исправлено: BKSRU, 04:19 17-06-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Из серии: Небольшие секреты работы с менеджером и статистикой.
 
В старой версии статистического анализатора текста была возможность фильтрации по количеству символов в слове: min/max, языковому направлению и частотности.  
Несмотря на то, что в новой версии подобного нет, это не сложно организовать с помощью RegExp:
 
  • Фильтрация по количеству символов в слове.
    ^\w{min,max}$ - слова с количеством букв от min до max.
    Или более короткие варианты:
    ^\w{min}$ - слова с фиксированным количеством букв min.
    ^\w{min,}$ - слова с количеством букв не менее min.
    ^\w{,max}$ - слова с количеством букв не более max.
     
    Хотя эти регулярные выражения новичку вряд ли ясны, сам их смысл не сложен. Просто копируем и вставляем в строку регулярных выражений ^\w{min,max}$ , режим выбираем RegExp. Экспериментируем меняя цифры: min и max.
     
    Попутно разъясню механизм:
    ^ - начало строки. В нашем случае строкой является пункт списка, поскольку ищем соответствие регулярному выражению строка за строкой (пункт за пунктом).
    \w - символ слова (буква).
    {min,max} - называется квантор. Задает минимальное и максимальное количество предшествующего символа (в нашем случае буквы).
    $ - конец строки. Т.е. строка должна заканчиваться.
     
    Для практики или ради любопытства попробуйте вставить в строку регулярных выражений:
    ^\w{5}ing$
    Поиграйте цифрой.
     
  • Фильтрация по языковому направлению.
    По умолчанию со снятой галочкой Match case:
    [a-z] - для латинского шрифта.
    [а-яё] - для кириллицы.
    Универсальные выражения (вне зависимости от режима Match case):
    [a-zA-Z] - для латинского шрифта.
    [а-яёА-ЯЁ] - для кириллицы.
    В принципе это один из способов уборки мусора или деления смешанного списка по языковым направлениям. Устанавливаем в строку поиска(в данном случае режим RegExp/WildcardUnix не имеет значение) необходимый поисковый запрос и в зависимости от желаемого результата либо экспортируем полученный список с помощью пункта контекстного меню - Export List, либо очищаем с помощью пункта Clear.
     
  • Фильтрация по частотности.
    Организовать с помощью регеспов этот режим не получится. Однако можно воспользоваться  сортировкой по убыванию или возрастанию, после применения которой не составит труда вырезать необходимые части или скопировать вставив в новый журнал.  
    Если есть желание оставить исходный порядок следования и исходный журнал, действуем в следующем порядке:
    - Предварительно делаем копию.
    - Применяем сортировку, вырезаем ненужное.  
    - После отмены сортировки исходный порядок восстановится, но уже с вырезанными пунктами.


Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 07:47 08-06-2015 | Исправлено: BKSRU, 07:32 15-06-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/8NdcJs4qG - exe файл + обновленная библиотека.
- Download: http://rghost.net/6ngWxXYLW - список имен собственных.
- Download: http://rghost.net/7krkzSbZd - список подмен (101 подмена) для Фильтра подмен.
 
Обратите внимание - это не версия UI Revolution и не официальная сборка. Отладить с ходу такой менеджер с фильтром не просто. Но сделано все возможное, что бы все на текущий момент работало как положенно. Так, что на ваш страх и риск. В какой то мере это база более серьезного проекта. Хотелось бы, что бы была активность по поводу сбоев и несоответствий в сохранении информации и при каких обстоятельствах происходит.
New:  
1. Пункт меню Чувствительность к регистру теперь действует на фильтрацию.
2. Изменены некоторые принципы подсчета слов в Статистическом анализаторе текста: оставлены внутренние апострофы слов.
3. Фильтр подмен.
  • Пункт контекстного меню иконки строки ввода регулярных выражений, теперь так же действует на режим фильтрации.
  • Повышена точность статистического анализатора за счет изменения отношения к апострофам внутри слов. Например слово aren't ранее делилось на слова aren и t. Сейчас в списке остается в исходном виде aren't. Апостроф удаляется только если он стоит в начале слова.
  • Фильтр списка подмен - служит для дополнительной очистки частотного списка и повышения точности статистических расчетов.

На фильтре подмен остановимся подробнее.
Фильтр подмен.
Сам Список подмен обычный журнал  с двумя колонками разделенными табуляцией. Слевой стороны то, что хотим поменять (Исходный шаблон) в исходном журнале. Справой стороны на что хотим поменять (Шаблон подмены). Экспортировать Список подмен в файл фильтра можно обычными способами, либо простой вставкой с буфера обмена, либо с помощью пунткта контекстного меню Менеджера журналов - Turn in Filter. После этого содержимое Списка подмен скопируется в файл Filter:

 
В контекстном меню Частотного списка, имеется пункт Export Replace. После применения которого рядом появится измененный список в соответствии с подменами. Исходный список останется неизменным:

 
Можно использовать следующие варианты подмены:
  • Полная подмена, если в Списке подмен слева и справа имеются данные, например:
    they'd    they would
    произведет замену в исходном списке they'd    10 на they   10 и would   10. Причем, абсолютно все статистические данные будут сложены если в исходном списке уже есть эти слова. Т.е. если был пункт would   5, он станет would   15.
    Если исходный пункт списка имеет внутреннее вхождение Исходного шаблона подмены, такой пункт останется неизменным. Так, что можно не опасаться, что подмена типа:
    he'd    he would
    заменит she'd на she и would
    Этот вариант подмены годится в качестве дополнительного приведения списка к корням, поскольку после Корневого фильтра, все таки остаются хвосты (это зависит от морфологического словаря). Но теперь можно сделать дополнительные подмены типа:
    been    be
    На самом деле на основе этого режима можно реализовать очень точное приведение к корням.
  • Пустая подмена. Если в подмене отсутствует Шаблон подмены(правая колонка), т.е. меняем на Пусто. Этот вариант используется в основном для очистки от мусора. Например одиночных букв, слов паразитов... Его так же можно применить в качестве альтернативы Списка-фильтра имен собственных.
  • Подмена окончаний. Так же как и в предыдущем варианте отсутствует Шаблон подмены(правая колона), т.е. меняем на Пусто. Но если Исходный шаблон начинается с апострофа, то слова имеющие окончания будут очищены от него. Т.е. подмена типа 's превратит слово family's в family.
    Следует учесть, что если в списке присутствует подобная подмена, то для корректных подмен необходимо в список включить полные подмены типа:
    's
    he's    he is
    it's    it is
    she's    she is
    that's    that is
    there's    there is
    here's    here is
    let's    let us

    Иначе сами понимаете, что произойдет.

В комплекте пара списков:
- Список имен собственных (us) (Подчищен). На самом деле его необходимо тщательнее зачистить, что бы имена не перекликались с реальными словами, особенно теми которые входят в общеизвестные частотные списки. Но имея такой мощный инструмент как Частотный анализатор текста не составит труда сделать это фактически на автомате. Что современем будет сделано.
- Список подмен (us). Список с наиболее популярными окончаниями.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 17:26 08-06-2015 | Исправлено: BKSRU, 20:11 09-06-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Обновил список подмен:
- Download: http://rghost.net/7krkzSbZd - список подмен (101 подмена) для Фильтра подмен.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 08:10 09-06-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/8NdcJs4qG - exe файл + обновленная библиотека.
- Download: http://rghost.net/6ngWxXYLW - список имен собственных.
- Download: http://rghost.net/7krkzSbZd - обновленный список подмен (101 подмена) для Фильтра подмен.
 
- Введено ограничение в 80 символов для строки регулярных выражений в целях предотвращения подвисания при случайной вставке данных из буфера обмена.
- Так же обновлен список подмен.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 10:38 09-06-2015 | Исправлено: BKSRU, 10:44 09-06-2015
BKSRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/72fSzYWyP - exe файл + обновленная библиотека.
- Download: http://rghost.net/6qpgv7p78 - список подмен (обновлен 103 подмены) для Фильтра подмен.
 
New:  
1. Двууровневая настройка авторасчета при вводе шаблона в строке Регулярных выражений.
2. Изменен принцип подсчета общей статистики при корневой фильтрации.
3. Оптимизация скорости перерасчета фильтрации длинных списков.
4. Повышена точность поиска корней при Корневой фильтрации.
 
Двууровневая настройка авторасчета регулярных выражений.

Первый уровень по умолчанию. При количестве записей в журнале до 25000 идет автоматический перерасчет при каждом вводе символа в строке Регулярных выражений.
В контекстном меню иконки строки Регулярных выражений пункт Recalculation включает второй уровень автоперерасчета - до 40000 записей в журнале.
При превышении ограничения расчет призводится нажатием клавиши Enter.
При переходе с журнала на журнал, авторасчет производится всегда, также как и любые иные типы фильтрации, независимо от ограничения.
 
Несколько изменен расчет общей статистики (всплывающая подсказка в заголовке Окна-фильтра) при корневой фильтрации. Ранее выводилась вся сумма корней (что было не интуитивно), сейчас только тех которые остались в списке, как и при любых иных типах фильтрации. В принципе это логичнее. При экспорте корней, для каждого корня будет выведена общая сумма частотностей однокоренных слов.
 
P.S. На данном этапе сложно отследить ошибки перерасчета, поэтому будьте внимательны и по возможности сообщайте о подобных фактах.

Всего записей: 1558 | Зарегистр. 29-01-2009 | Отправлено: 17:58 11-06-2015 | Исправлено: BKSRU, 20:59 11-06-2015
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13

Компьютерный форум Ru.Board » Компьютеры » Программы » GoldenDict | DSLGD | DSL extension format


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru