Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Словари и Редакторы словарей для ScanSoft RealSpeak

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3

Открыть новую тему     Написать ответ в эту тему

RoRo



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Параллельная тема в Варезнике
WordRead (plus Scansoft RealSpeak Russian Voice)
 
                                                             Редакторы Словарей
 
На текущий момент есть два редактора:
1)    Коммерческий редактор ScanSoft Nuance.
ScanSoft Nuance (User Dictionary Editor - UDE - rsude.exe) – это родной редактор. Поддерживает следующие форматы словарей dct/bdc/trs. Все необходимые шапки в файлах создаёт сам. Можно тут-же послушать, показывает ошибки.
По вопросам обращайтесь в параллельная тему.
 
2)    Мой бесплатный редактор.  Текущая Версия 1.0.4
Я изменил формат словаря, поэтому после установки моего редактора, словари в оригинальном формате RealSpeak будут не корректно обрабатываться. Т.е. на текущий момент нет совместимости со словарями сделанными ScanSoft Nuance  
 
Подробнее об особенностях моего редактора можно прочитать здесь.    
 
  Новое в версии 1.0.3:
Поддерживаются голосовой движок Катерины 2-й версии и 1-ой.
( Я отказался от поддержки Demo версии 2-ой Катерины. Зато гарантированна работа полной версии 2-ой   Катерины моей сборки, см. параллельную тему в Варезнике. Так же эта версия должна работать с версией JAWS8.)
 
  Новое в версии 1.0.4:
Исправил, серьезную ошибку, приводившую к сбою Koobaudio и других читалок текста.  
Обновится до этой версии обязательно.
 
Вот прямая ссылка на мой редактор, документацию, и пример словаря:
Ссылка на закачку версии 1.0.4
http://ifolder.ru/5643490
Размер редактора 1.58 Мб в архиве.  
В архив включен пример словаря.  


                                                                   Словари
 
Даже если вы единолично составите хороший словарь, всех слов он включать не может. В следующем тексте, который вы захотите прослушать, наверняка встретятся слова или слова сочетания, которые уже кто-то исправил, а у вас их нет. Правильным решением, на мой взгляд, является объединенный словарь.  
 
В данном топике, предлагаю выкладывать словари для голосовых движков  
Scansoft RealSpeak Russian Voice созданные, как в моем редакторе, так и в оригинальном ScanSoft редакторе.
 
Правила создания единого общего словаря:
 
1)    Вне зависимости от того, какой редактор словарей вы используете. Для обмена принимаются словари в текстовом формате. Так как их можно легко объединить. В тоже время текстовой формат словаря Nuance, всегда можно конвертировать обратно в бинарный.
2)    Для объединения словарей рекомендую использовать любую версию программы Araxis Merge или аналогичную ей.
3)    Берем последнюю версию словаря, опубликованную в этой ветке форуме. Скачиваем ее себе. И используя Araxis Merge, объединяем свой словарь и скаченный в один большой словарь.
4)    Публикуем получившийся словарь в этой ветке форума.
5)    Рекомендуется, чтобы в получившемся словаре было много нового. Ну скажем не менее 30 или 60 новых слов и выражений.

Всего записей: 170 | Зарегистр. 03-01-2002 | Отправлено: 19:23 12-02-2008 | Исправлено: RoRo, 17:22 07-03-2008
Ajaja

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
RoRo
Я не совсем понял на счет внутренего формата фонем. Чем он отличается от <ESC>/ ? Я-то как раз думал, что та фонетическая запись, что используется у тебя в словаре,  и в <ESC>/ и во внутренем формате движка - это одно и то же (возможно внутри она просто проходит какую-то постобработку для благозвучности). И еще не понятно, на каком этапе происходит перехват и замена? До g2p (graphem to phonem, орфографии в фонемы) или после? Я так понимаю, что до? Иначе не ясно, как по словарю может происходить замена уже в фонемах. Но тогда и эту замену потом должна цеплять постобработка? Я вообще не въехал, как оно работает, учитывая то что механизм работы словарей RealSpeak вроде требует именно <ESC>/+ транскрипции (L&H+ phonetic alphabet, which is compatible with the International Phonetic Alphabet (IPA) как называют ее сами разрабы) и не работает со словосочетаниями. Или он вообще блокируется?
 
Вопрос по поводу версий Катерины не так прост, как кажется. Лично у меня их уже 4 разных версии Две версии Кати-1 (WordRead-овская и NextUp-овская) и 2 версии Кати-2 (демка и та что с JAWS8 идет).  Это уже 3 разных версии той же rs_sapi5_solo.dll. Так что проблему с совместимостью тоже надо продумать. В новой версии,  кстати, исправлено большое количество проблем. Например, наконец-то Катя  научилась говорить "успеШный" без словаря Уже  не надо использовать ключ PP type=email для ускорения. Думаю, так же добавили и новые глюки Алгоритмы достаточно сильно поменялись. Натравив ssft_ttsGetWordTranscriptions на огромную словарную базу порядка полумиллиона уникальных слов и сравнив результат работы на двух разных версиях Кати (старой и новой) получил отличия в 8% транскрипций (это очень много!!!).  Так что, похоже, и словари уже придется составлять как минимум для двух разных версий Катерины.
 
Согласен с тем, что главная проблема стандартного словаря - невозможность корректировать звучание словосочетаний и отсюда проблема с омографами. Главные его достоинства - универсальность, совместимость и, в конце-концов, то что это "родной" формат для движка и не надо патчить библиотеки.
 
В твоем редакторе пока-что  наоборот. Но я надеюсь проблема с совместимостью с разными версиями будет решена. Действительно, не так часто новые версии появляются. К тому же, почитав мануал (за документацию отдельное спасибо - очень полезная вещь!), сложилось впечатление, что вполне реально сделать конвертер не только из стандартного формата в твой, но и в обратную сторону (кроме словосочетаний, само-собой).  
 
В общем, я обеими руками за то чтоб программа развивалась

Всего записей: 1032 | Зарегистр. 17-06-2004 | Отправлено: 23:22 12-02-2008 | Исправлено: Ajaja, 01:11 13-02-2008
RoRo



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ajaja Спасибо, за поддержку!
 
1)    Дай, пожалуйста, в параллельной теме, ссылки на все версии Катерины доступные тебе. Я их на выходных посмотрю. И сделаю совместимость со всеми версиями.
2)    Внутренний формат отличается от <ESC>/ следующими принципиальными вещами.
a.    Некоторое отличие в правилах разбиения на слоги, и другие символы разделители. Это очень важная вещь.
b.    Другие символы для задания ударных гласных.
c.    Все безударные гласные формата <ESC>/ проходят пост обработку, и заменяются на фонетические символы звуков согласно правилам описанным у меня в хелпе. Но не всегда это отображение нормально проходит.
d.    Существует ряд дополнительных символов которые изменяют произношение, и которым нет аналога в <ESC>/.
3)    Те фонемы что использую я, эквивалентны внутренним фонемам движка. При передачи в движок эти фонемы оборачиваются во внутрь <ESC>/+ тегов.  
     Что такое вообще <ESC> теги это последовательность байт
Стандартные ограничители слов из словаря или ESC символы
         "\x11\x2f\x2b\x20" начало строки из словаря, начальный <ESC>/+ тег
         "\x20\x11\x2f\x2b" конец строки из словаря, конечный <ESC>/+ тег
         "\x11\x2f\x20" начало ESC строки
         "\x20\x11\x2f" конец ESC строки
      Соответственно, если использовать стандартные словари, в нутрии движка фонемы будут иметь вид:
           "\x11\x2f\x2b\x20" – далее идут символы  L&H+ phonetic alphabet, which is compatible with the International Phonetic Alphabet (IPA) -  "\x20\x11\x2f\x2b"  
В моем случае:
          "\x11\x2f\x2b\x20" – далее символы внутреннего формата -  "\x20\x11\x2f\x2b"  
То есть, есть начальный и завершающий теги, в нутрии которых разное содержимое в зависимости от того, какой версией редактора пользоваться.
 
4)    Идея моего патча в следующем. В момент, когда голосовой движок считывает фонемы из словаря, я сохраняю их у себя во внутреннем буфере. Но не все, а только те, что содержат пробелы. (На самом деле это тоже не совсем верно, пробелы в словосочетаниях заменены на символы подчеркивания). Нахожу в переданной строке все словосочетания, заменяю их на значения из словаря. Делаю еще кое-какие манипуляции со знаками препинания. Далее движок подменяет в строке все слова, что он сам находит в словаре. Соответственно словосочетания он не способен выявить. За него это сделал я уже. Далее все это хозяйство должно подвергнуться тотальному конвертированию, во внутренний формат.
Так как все фонемы уже находятся во внутреннем формате, то их не нужно преобразовывать, но движок об этом не знает. И пытается их искорежить. Ряд мер помогают этого избежать. И в итоге, мы получаем корректную строку во внутреннем формате. Которая передается на последующую обработку.
5)    Вообще хотя, как ты мог заметить, мой патч приклеивается к rs_sapi5_solo.dll, он не имеет к этой dll никакого отношения . Всю изменения функциональности касаются edct.dll и g2p_rur.dll. Так что важны версии именно этих двух файлов.
 
6)    
Цитата:
Натравив ssft_ttsGetWordTranscriptions на огромную словарную базу порядка полумиллиона уникальных слов и сравнив результат работы на двух разных версиях Кати (старой и новой) получил отличия в 8% транскрипций (это очень много!!!).  Так что, похоже, и словари уже придется составлять как минимум для двух разных версий Катерины.  
     
      Заметь что ssft_ttsGetWordTranscriptions() выдает фонемы в формате <ESC>/+. В нутрии движка вся работа происходит с внутренним форматом. Соответственно, изменения вполне возможно коснулись конвертации из внутреннего формата в <ESC>/+. И совершенно не влияют на конвертацию из обычного текста во внутренний формат.
 
7)    
Цитата:
Согласен с тем, что главная проблема стандартного словаря - невозможность корректировать звучание словосочетаний и отсюда проблема с омографами. Главные его достоинства - универсальность, совместимость и, в конце-концов, то что это "родной" формат для движка и не надо патчить библиотеки.

 
Первое что бросается в глаза, это "не надо патчить библиотеки”. Почему все, так этого боятся. И предпочитают кейгены, крякам. Видимо в силу не понимания, что же это там такое сделала левый программист, может он там чего испортил. Хочу сказать сразу, это предрассудки. Если соблюсти совместимость на бинарном уровне, для чего достаточно проверить версию бинарника и вычислить его CRC32, а так же использовать проверенные временем средства расширения функционала, то проблем не должно быть. Когда я говорю проверенные временем, я имею в виду в частности детуры, которые не абы кто придумал, а являются одним из средств разработки Майкрософт. Которое она, начиная с последних версий, продает за большие деньги.  
Все равно для решения омографов, придется движок патчить. Иначе никак!
Теперь, мы имеем несколько версий Катерины. Замечательно. Для пользователя важен конечный результат. Ему важно, что бы его текст был корректно произнесен. Добиться этого можно только с помощью словарей. Как бы разработчики Катерины не изгалялись с методами анализа текста. Но словарь является незаменимой частью. И мне, как пользователю, лучше иметь одну версию с хорошим словарем, чем прыгать от версии к версии и ждать когда интеллект движка дойдет до уровня, когда словари будут не нужны. С другой стороны мне как программисту, требуется обеспечить совместимость с новыми версиями движка, и я тут за. Но исправление одной буквы в ряде слов, погоду не сильно делает, при количестве допускаемых движком ошибок.
L&H+ phonetic alphabet – это “родной” формат движка? Даже будучи в кавычках слово родной, на мой взгляд, не корректно. Скорее внешний формат. Формат, который предоставлен пользователю. А вот родной формат, тот на котором можно прекрасно писать фонемы от пользователя скрыт. Видимо потому, что ScanSoft не удосужилась его документировать, в силу очевидной сложности этого формата. Ибо правила задания одних безударных гласных в зависимости от позиции в слове, чего стоят. Проще их отдать на откуп алгоритму.  
И вообще объясните мне, в чем собственно заключается идея универсальности и совместимости L&H+ phonetic alphabet. В том, что они его используют в качестве внешнего интерфейса для словарей? Совместимость с чем? Универсальность по отношению к чему? А то что он как был так и остается не документированным, во всяком случае для русского языка. Да конечно этот формат является внешним интерфейсом. Вероятность его изменения равна нулю. Но простите, для внутреннего формата фонем, я составил подробное руководство. И если пользователь не будет сломя голову менять движок на новую версию, то все будет более чем хорошо работать, а уж доделать совместимость этого редактора с новой версии это вопрос времени.  
Таким образом мы имеем вполне законченный комплект движка и редактора фонем. Берем и начинаем создавать словарики, чего еще нужно. А развивать редактор нужно в совсем другом направлении. Все эти вопросы совместимости с новыми версиями это решаемые мелочи.
За два месяца, чтения текстов и составления словарей, можно покрыть большинство ошибок движка Катерины, для этого достаточно, что бы пользователи выложили свои версии здесь на форуме. Есть прекрасные средства для объединения словарей. А что в конечном счете еще нужно?
8) Пользователям голосового движка нужно решить или <ESC>/+ без патчей и следовательно без омографов, или внутренний формат. Два формата я поддерживать отказываюсь, это вообще не имеет смысла.  
 
All
Навскидку, задачка для всех, чтоб поняли, в чем проблема омографов. Как сделать корректным произношение этой фразы (немного странной по смыслу):
 
“Запах французских духов от аэропортных киосков пугал духов.”
(Речь в начале про парфюм ясное дело идет)
 
В любой программе синтеза речи, с голосовым движком Катерина, используя редактор словарей ScanSoft Nuance. И не используя мой редактор и документацию к нему!!
 
 
Добавлено:
Ajaja
Да конвертер в обе стороны наверно сделать можно и нужно. Это предложение мне больше нравится. К тому же это застрахует нас от изменения внутреннего формата в будущем. Но вот обеспечивать одновременную работы и ESC>/+ и внутреннего формата в программах синтеза речи, мне бы очень очень очень очень не хотелось, это еще тот гемор. Да и пользователю это не принесет никакой выгоды, так как придется изучать два разных фонетических алфавита. короче конвертер из ESC>/+ во внутренний формат я сделаю, а обратный конвертер в случае острой необходимости, вызванной сменой внутреннего формата фонетического представления слов.

Всего записей: 170 | Зарегистр. 03-01-2002 | Отправлено: 12:41 13-02-2008 | Исправлено: RoRo, 13:18 13-02-2008
RGF



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
название темы обещает словари помимо прочего, можно их куда то залить? и инструкцию, как их прикореплять к тому или иному софту?

Всего записей: 537 | Зарегистр. 05-09-2002 | Отправлено: 13:23 13-02-2008
RoRo



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
RGF
Все верно тема обещает. В шапочке, написано  
 

Цитата:
Вот прямая ссылка на мой редактор:  
Ссылка на закачку  
http://ifolder.ru/5310490  
Размер редактора 1.37 Мб в архиве.  
В архив включен пример словаря.  

 
Документация, как пользоваться редактором и подключать словари находится в архиве.
Без редактора, словарь который идет в комплекте работать не будет.
Словарик может и не большой, но редактор позволит решить все возникшие проблемы с произношением. Более полные версии словаря появятся, как только пользователи начнут выкладывать свои варианты произношения в виде словарей.
 
Ссылок на словарь, в формате редактора ScanSoft Nuance, у меня нет. Может кто и выложит готовый словарик в этом формате. Но я рекомендую пользоваться моим.
 
 

Всего записей: 170 | Зарегистр. 03-01-2002 | Отправлено: 13:34 13-02-2008 | Исправлено: RoRo, 13:42 13-02-2008
Ajaja

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
RoRo
Спасибо, за подробные объяснения. Примерно понял, как все это работает.
 

Цитата:
Все равно для решения омографов, придется движок патчить. Иначе никак!

Не скажи, не скажи В самой последней версии Кати (из J8) уже работают таблицы правил на основе регэкспов (из Perl-a) - RuleSets. А регэкспы - очень мощная штука. Какие открываются возможности в плане тех же омографов!!! Только там при работе с ними есть ограничения:

Код:
The following restrictions apply to rulesets: TTS Markers generated while rulesets are loaded have  dummy values (0) for the source position field, because the  
source positions are only determined after the rulesets have  
been applied. You cannot load or unload rulesets on a TTS engine instance  
that is in the state of processing.

 

Цитата:
Заметь что ssft_ttsGetWordTranscriptions() выдает фонемы в формате <ESC>/+. В нутрии движка вся работа происходит с внутренним форматом. Соответственно, изменения вполне возможно коснулись конвертации из внутреннего формата в <ESC>/+. И совершенно не влияют на конвертацию из обычного текста во внутренний формат.

Вряд ли разработчики стали бы писать два разных g2p-модуля для разных фонем (к тому же  фонемы обоих видов получаются в одной библиотеке - g2p_rur.dll). Судя по моим наблюдениям и учитывя твои комментарии, движок работает примерно так: сначала в озвучиваемой строке слова из словаря заменюятся на <ESC>/+-последовательности, затем вся эта строка с перемешаным содержанием (орфография и <ESC>/+) передается для обработки дальше и получается строка, приведенная к одному виду - к тем упрощенным <ESC>/-фонемам, которые дальше проходят постобработку и получается более сложный и более точный формат. То есть, очень вероятно что упрощенные <ESC>/ и <ESC>/+ фонемы получаются одним алгоритмом, так как по всей видимости они абсолютно совместимы, просто записываются по-разному. Так что, разная транскрипция 8% слов в разных версиях движка говорит о серьезных изменениях.
 

Цитата:
L&H+ phonetic alphabet – это “родной” формат движка? Даже будучи в кавычках слово родной, на мой взгляд, не корректно. Скорее внешний формат. Формат, который предоставлен пользователю. А вот родной формат, тот на котором можно прекрасно писать фонемы от пользователя скрыт. Видимо потому, что ScanSoft не удосужилась его документировать, в силу очевидной сложности этого формата. Ибо правила задания одних безударных гласных в зависимости от позиции в слове, чего стоят. Проще их отдать на откуп алгоритму.  

Вот в этом и состоит еще одна проблема. Вполне очевидна сложность записи фонем сразу во внутреннем формате. Согласен, это очень мощная вещь - по сути полный контроль над звучанием. Но и руководство в итоге получилось не слабым Одно дело начиться пользователю набирать транскрипцию в упрощенных L&H+ или <ESC>/ форматах, предоставив потом алгоритмам учесть все правила по его усмотрению и совершенно другое дело научиться самому составлять правильные транскрипции с учетам всех тех правил. Наверное, поэтому разработчики и ввели этот L&H+ phonetic alphabet формат, чтоб это было доступно каждому. И ведь с помощью  L&H+ тоже можно сделать правильным звучание любого слова. Это вполне разумный баланс между мощью и простотой.  
 

Цитата:
“Запах французских духов от аэропортных киосков пугал духов.”  
(Речь в начале про парфюм ясное дело идет)  
В любой программе синтеза речи, с голосовым движком Катерина, используя редактор словарей ScanSoft Nuance. И не используя мой редактор и документацию к нему!!  

 
ruleset.trs:

Код:
 
[header]  
language = RUR
charset = "windows-1251"
 
[data]  
/Запах (.*?)духов/i --> "Запах $1/+du.'xof/+"
 

Даже по-универсальней будет, не важно "французских" или "дорогих" или просто "запах духов" Но работает только в последней версии Кати
 

Всего записей: 1032 | Зарегистр. 17-06-2004 | Отправлено: 16:25 13-02-2008
RoRo



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ajaja
 

Цитата:
сначала в озвучиваемой строке слова из словаря заменюятся на <ESC>/+-последовательности, затем вся эта строка с перемешаным содержанием (орфография и <ESC>/+) передается для обработки дальше и получается строка, приведенная к одному виду - к тем упрощенным <ESC>/-фонемам, которые дальше проходят постобработку и получается более сложный и более точный формат. То есть, очень вероятно что упрощенные <ESC>/ и <ESC>/+ фонемы получаются одним алгоритмом, так как по всей видимости они абсолютно совместимы, просто записываются по-разному.

 
Брр каша какая, все не так. )) Хотя и не суть. <ESC>/ вообще к словарю не имеет отношение. Хотя смотря что, мы под этим понимаем?! В озвучиваемой строке перебираются все слова, если находится слово в словаре, то берется фонетическая транскрипция и вставляется в озвучиваемую строку. С двух сторон эта транскрипция в строке будет ограничена <ESC>/+ тегами. Все. Дальше эта строка один раз обрабатывается, и приводится к внутреннему формату, тому который я использую в редакторе. Но это все относится к той версии Катерины, что я имею.
 

Цитата:
Но и руководство в итоге получилось не слабым  

Да но оно уже готово!
И не так уж оно сложно, тем более, когда написано.
Зато полный контроль, и решение всех проблем произношения.  
Кто хочет исправить произношение тот разберется, согласись, ведь подорвались же некоторые на копание внутри внутренностей Катерины, а это не руководство прочитать  
 
Ладно, если по сути. Я Сейчас закачаю, последнюю версию Кати. И до понедельника постараюсь ее посмотреть, тогда будет предмет для разговора.
В конечном счете, никто не мешает использовать RuleSets с тем форматом фонем, что использую я. А ограничения, можно и обойти. И вообще неплохо бы собрать последнюю версию Катерины, как отдельный пакет. А то уж больно геморройная схема ее установки.
 
За ссылки на последнюю версию, спасибо.

Всего записей: 170 | Зарегистр. 03-01-2002 | Отправлено: 17:14 13-02-2008 | Исправлено: RoRo, 17:16 13-02-2008
vikkiv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Нашёл ещё пару фрагментов SDK. Хотя с учётом прогресса единственный интерес может представлять описание одного языка (не русского) в директории Doc и файлы Release Note (там-же).

Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 17:50 13-02-2008 | Исправлено: vikkiv, 17:57 13-02-2008
Ajaja

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
RoRo  

Цитата:
Брр каша какая, все не так. )) Хотя и не суть. <ESC>/ вообще к словарю не имеет отношение. Хотя смотря что, мы под этим понимаем?! В озвучиваемой строке перебираются все слова, если находится слово в словаре, то берется фонетическая транскрипция и вставляется в озвучиваемую строку. С двух сторон эта транскрипция в строке будет ограничена <ESC>/+ тегами. Все. Дальше эта строка один раз обрабатывается, и приводится к внутреннему формату, тому который я использую в редакторе. Но это все относится к той версии Катерины, что я имею.
 
Нет не так. Мы не поняли друг друга. Вот пример как меняется строка в движке (проверял правда на новой Катерине):  
Исходная:  

Код:
Голос компьютера по умолчанию - ScanSoft Katerina_Full_22kHz
 
После обработки словарем (у меня правило на Katerina_Full_22kHz):  

Код:
Голос компьютера по умолчанию - ScanSoft /+ k^.t%j$.'r%ji.no- /+
 
После этого в модуле g2p_rur.dll получается обычная упрощенная /<ESC>-транскрипция:  

Код:
'go-l@s k^mp-'jU-tE-r@ p^ u-m^l-'TWa-Ni-jU #[250] 'skan-'soft k^-TI-'Ri-n@
 
Вот это я имел в виду, когда писал что запись <ESC>/ - аналог <ESC>/+ и получается по одним и тем же алгоритмам в g2p_rur.dll
После этого в vf_katerina_full.dll происходит постобработка всей фразы, результат:  

Код:
#"go-l@s-*k^mp-"jU-tI-r@-*p@-J-m^l-"QA-N$-Y%#"skan-"soft-*k@-T$-'Ri-n@#
 
Видно, что вся транскрипция изменилась, особенно гласные. Вот эту последнюю я и называл "внутренней". Ты же про нее писал в пункте 2) a-с.? Я так понимаю что твоя программа уже в нее вносит изменения?
 
Добавлено:
Если же твоя программа правит фонемы в том же месте где и стандартный словарь, то такая транскрипция все-равно подвергнется потом постобработке и может чуть измениться:

Код:
Голос компьютера /n^-"rot-*n^-"u-L$-'cI-*st^-"it/ по умолчанию - ScanSoft Katerina_Full_22kHz
Голос компьютера  / n^-"rot-*n^-"u-L$-'cI-*st^-"it /  по умолчанию - ScanSoft  /+ k^.'t%je.r%ji.no- /+
'go-l@s  k^mp-'jU-tE-r@   n^-"rot-*n^-"u-L$-'cI-*st^-"it  p^ u-m^l-'TWa-Ni-jU #[250] 'skan-'soft k^-'Te-Ri-n@
#"go-l@s-*k^mp-"jU-tI-r@-*n^-"rot-*n^-"u-L$-'c$-*st^-"it-*p@-J-m^l-"QA-N$-Y%#"skan-"soft-*k^-'Te-R$-n@#
 

Что-то, смотря на это, я все больше склоняюсь к своему первоначальному мнению, что никакой особой "внутренней" формы транскрипции нет. Это все та же задаваемая тэгами <ESC>/ родная транскрипция RealSpeak, только "причесаная"  постобработкой и поэтому повторно уже почти не изменяемая ей.

Всего записей: 1032 | Зарегистр. 17-06-2004 | Отправлено: 18:10 13-02-2008 | Исправлено: Ajaja, 00:36 14-02-2008
Ajaja

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
RoRo
Так и есть. Изучил по-внимательней работу движка и твоей программы пришел-таки к выводу, что нет никакого внутреннего формата. То же самое можно задавать и стандартным тегом <ESC>/ (как в CoolReader). И транскрипция после работы твоего словаря так же проходит постобработку и может чуть измениться, как и то что подставлено в тексте этим тэгом. В RealSpeak-движках в модулях g2p_<язык>.dll формируется транскрипция слов общая для всех голосов языка (она же, кстатит, и передается в родной словарь только в виде L&H+). Потом эта транскрипция обрабатывается в модуле vf_<диктор>_full.dll с учетом не только фразы целиком, но и особенностей каждого голоса. Стало понятно, почему разработчики в своем словаре предпочли именно упрощенную транскрипцию, т.к. у разных дикторов могут быть свои особенности, к тому же звучание слов зависит и от соседних слов - все это и учитываются при постобработке. Но русскоязычный диктор, к сожалению, у RealSpeak только один, поэтому для нас это не так актульно. Так что, думаю, каждый должен сам выбрать, какой формат использовать и что предпочесть - мощь и сложность <ESC>/ транскрипции в твоем редакторе (+омографы) или относительную простоту L&H+ в Nuance-редакторе (-омографы).

Всего записей: 1032 | Зарегистр. 17-06-2004 | Отправлено: 11:57 15-02-2008 | Исправлено: Ajaja, 12:07 15-02-2008
vikkiv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Многие наверняка выберут более простой вариант именно из-за его простоты во первых, а во вторых благодаря тому что его выпустил оригинальный производитель движка. Хотя абсолютное большинство вообще не будет париться и будут чисто тупо ждать готовые словари. . Предложенная выше более доработанная альтернатива пугает своей сложностью но наверняка представляет ценность для особо продвинутых пользователей, да и труда затрачено ого-го.

Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 14:23 15-02-2008 | Исправлено: vikkiv, 14:39 15-02-2008
Magral

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Здраствуйте RoRo хотелось бы узнать когда выйдет новая версия редактора поддерживающая Катерину 2. Жду с нетерпением так как установил демо версию движка плюс взял необходимые библеотеки из той что с JAWS8 идет.
При включении редактора выдает "Голос ScanSoft Katerina (модуль g2p_rur.dll) имеет неверную версию"

Всего записей: 9 | Зарегистр. 24-02-2008 | Отправлено: 08:10 25-02-2008
RoRo



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Magral
Да все практически готово уже неделю как. Все прекрасно работает в тестовом режиме. Достигнута совместимость первой и второй Катерины. В любых сочетаниях dll. Нехватает времени дотестировать все и перекомпилить exe редактора, почистив немного его код. Запарка на работе, плюс празники, плюс поездка в Кунгурскую пещеру. Думаю в конце неделе, в начале следующей. Все выйдет. Дайте немного времени с основной работой разобраться.

Всего записей: 170 | Зарегистр. 03-01-2002 | Отправлено: 17:39 26-02-2008
RoRo



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Готова новая версия моего редактора KatrinDictEditor_distr_v.1.0.3.rar.
Добавлена поддержка 2-ой версии голосового движка Катерина.
Ссылка в шапке.  

Всего записей: 170 | Зарегистр. 03-01-2002 | Отправлено: 20:22 05-03-2008
Magral

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Скачал новый редактор 1.0.3 и вот какие у меня появились проблемы.
Программа Koobaudio отказывается ни читать текст,ни писать в мп3 жалуется на зависание движка.
Программа Балаболка вроде читает и пишит, но иногда в конце предложений говорит слово "пич".Создаю новый документ пишу для пробы "душа душой ыаврр" программа вообще в ауте выдает ошибку и вылетает. Как можно решить эти проблемы.
Koobaudio пользуюсь уже года 2 не хочется отказываться. Да и в балаболке если есть вылет значит может произойти влюбой момент при записи мп3.
 
Еще вопрос к RoRo если  допустим слово читается с неправильным ударением мы его правим, то как быть с его формами в других падежах, что каждый падеж прописывать в словаре.К слову в балаболке можно было в словарях делать универсальные правила замены.
И еще может мне выложить 2 словаря для балаболки и Koobaudio, которые я составлял для катерины 1. В 1-ом и главном бодбирались замены на слух для исправления произношения с помощью известного способа у-да-РЕ-ния и других ухищрений.Во втором расшифровывались аббревиатуры. Раз уж создается новый словарь то из них можно брать набор слов с неправильным произношением,а не натыкаться на них при прослушивании текста.Тем более, что большая часть ошибок в словах осталась!
 
З.Ы. Про свою версию катерины 2 я писал выше.
 

Всего записей: 9 | Зарегистр. 24-02-2008 | Отправлено: 09:43 06-03-2008
Cosmotron



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Magral
Мне был бы интересен твой словарь для балаболки, выкладывай,заранее благодарен.

Всего записей: 1412 | Зарегистр. 08-01-2004 | Отправлено: 10:22 06-03-2008
RoRo



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Magral
 
1) Выложи свой словарь. По поводу уже собранного списка неправильных слов мысль хорошая. Так что пусть будет в доступе.
2) По поводу читалок Koobaudio и Балаболка. Сейчас займусь их тестированием на предмет выявления проблем. В свою очередь рекомендую NextUp TextAloud с ним проблем не замечено.
3) По-поводу падежей и вообще окончаний слов. На текущий момент, да нужно вводить все формы слов. Но я озадачился прикручиванием регулярных выражений. Пока хочу рассмотреть встроенные средства голосового движка в этом аспекте. А там посмотрим, может прикрутим свой вариант регулярных выражений.

Всего записей: 170 | Зарегистр. 03-01-2002 | Отправлено: 14:52 06-03-2008
Magral

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Словари для Катерины 1 http://meetfile.com/files/47703/Kat_27.02.08.7z.html
 
Три словаря имена,числа и основной.Подходят для балаболки,Koobaudio и любой другой поддерживающей dic словари.
За основу для основного словаря я брал словарь для другого движка и постепенно вычещал несоответствия и добавлял свои замены,так что могут встречаться бесполезные замены(тапками не закидывать). Хотя много замен исправляет произношение. Словари составлялись для К. 1 поэтому во второй могут обнаружится исправленные слова.
 
RoRo а нельзя как нибудь сделать список фонем как в родном редакторе,чтобы можно было выбирать фонемы или хотя бы в качестве подсказки,а то пока все фонемы заучишь где что ставить,какая что обозначает а тут нажал на нужную и все ок

Всего записей: 9 | Зарегистр. 24-02-2008 | Отправлено: 05:20 07-03-2008
RoRo



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
To All
 
Готова новая версия KatrinDictEditor_distr_v.1.0.4.rar .  
Исправил, серьезную ошибку, приводившую к сбою Koobaudio и других читалок текста.  
Обновится до этой версии обязательно.  
 
Magral
1) Спасибо за выявление ошибки в редакторе.
2) "нельзя как нибудь сделать список фонем как в родном редакторе"
    Пожелание приму к сведению. Но в ближайшее время это вряд ли будет сделано.   Не хватает на все время.
Могу только сказать, что для большинства случаев, а именно расстановки ударений в словах, это не является, на мой взгляд, критичным моментом.  
Во-первых, фонетическое представление слово легко получить, нажав кнопку  
“Get Transcript”. А во-вторых, при расстановке ударений нужно в большинстве случаев всего-то сделать три исправления: пометить ударный слог двойной кавычкой, заменить в ударном и в безударном слоге гласную. И все. В более сложных случаях, все равно имеет смысл залезть в справку, что бы сверится с фонетическими правилами русского языка. К тому же справку всегда можно держать раскрытую рядом с редактором.

Всего записей: 170 | Зарегистр. 03-01-2002 | Отправлено: 17:21 07-03-2008
Magral

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
RoRo спасибо за новую версию буду тестить.Предложение хотелось бы чтобы при двойном нажатии мышки на слове в словаре его можно было редактировать,то есть срабатывала клавиша edit.
 
 
Ко всем
Нашел баги в движке К.2 незнаю как исправить:
1.Слово "жди или ждите" + лубое другое слово в начале предложения или просто в начале параграфа читается как здите.Проверьте скопируйте два слова ждите+любое.
Хотя одно слово жди или ждите читается нормально.
2.Словосочетание "выпил воды" проглатывается л.
3.Бывало слышал в слове кресло е заменялась на ё.
Как такие ошибки можно исправлять?Неужели замена букв в словосочетаниях это новый баг движка или он был и в К.1?

Всего записей: 9 | Зарегистр. 24-02-2008 | Отправлено: 05:11 08-03-2008
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3

Компьютерный форум Ru.Board » Компьютеры » Программы » Словари и Редакторы словарей для ScanSoft RealSpeak


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru