Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

Открыть новую тему     Написать ответ в эту тему

vikkiv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Microsoft Agent / Speech API
 
   
 
Microsoft Agent - это набор программных сервисов, поддерживающих воспроизведение интерактивных анимированных персонажей в рамках интерфейса Windows. Разработчики могут использовать эти персонажи для создания различных интерактивных приложений и справочных систем, а также для представления информации в HTML-документах различными способами. В дополнение к поддержке обычного способа ввода информации с помощью клавиатуры и мыши Microsoft Agent предлагает поддержку распознавания голосовой информации (с помощью технологии Microsoft Speech API (SAPI)), позволяя управлять приложениями на уровне голосовых команд. Персонажи также могут воспроизводить синтезированную речь, аудиофрагменты или текст в специальном окне. Для поддержки голосовых функций в системе должны быть установлены Microsoft Agent 2.0, компоненты ядра Microsoft Speech API 4.x/5.x и движки для воспроизведения и распознавания речи (Text-to-Speech / Speech Recognition) на нужном языке. По желанию можно также установить дополнительные экранные персонажи.
Microsoft Agent 2.0 + Speech API 4.0 + Speech API 5.1 + Lernout & Hauspie TTS3000 Russian TTS Engine для Windows 95-Vista - полный комплект всех необходимых файлов, кроме локализаций и движков на языках отличных от русского и инструментов для разработчиков. Windows ME-Vista уже включают Microsoft Agent 2.0 и экранный персонаж Merlin. В Windows 2000 также входит Speech API 4.0, а в Windows XP-2003/Vista - Speech API 5.1/5.3. В Windows 9x и Windows 7 требуется полная установка всех компонентов, причем для Windows 7 Microsoft Agent доступен в виде специального исправления.

[c]Движки для синтеза речи (TTS):

Хотелось-бы обобщить разговоры о различных синтезаторах речи (Text-to-Speech - TTS) для PC, а то сообщения появляются довольно редко в каждом отдельном тематическом разделе.
 
Ниже идёт список голосов/синтезаторов речи для русского языка (в примерном порядке убывания качества):
 
1. Acapela-Group Алёна 22Khz - 150Mb - SAPI5/SAPI4 - Релиз в первой половине 2008-го года. Перед установкой 30-ти дневной демо версии Алёны необходимо установить ядро (~23 MB). Образец
2. Loquendo Ольга / Loquendo Дмитри ~100MB - SAPI5  - Первый релиз в конце 2008-го года. Образец1, Образец2
3. ScanSoft Катерина  22Khz - 44MB - SAPI5 (бывшая Татьяна-SAPI4) - что-то близко или даже немного/много лучше Николая (хотя у Татьяны не было такого истерического характера). Образец
4. Speech Cube Elan v5.1 - Николай (Nicolai) 16Khz - 12MB SAPI4 + SAPI5 - эволюция Digit (2002) 8MB ili Digalo (2000) 7.5MB, с поддержкой не только SAPI4 но и SAPI5 + возможность использования в нескольких программах одновременно (многоканальность) известные версии 4.2. и 5.1 а так-же Телеком и Мултимедиа. (в новых версиях Speech Cube Nicolaja пока не видно - ver 5.2 и 6.0). Из подверсий можно отметить Acapela Multimedia - SDK (ettsengine.exe), Acapela Telecom (SpeechCube.exe / acatel_srv.exe) и Acapela Evaluator (ElanTempoEvaluator.exe / ElanSaysoEvaluator.exe / AcapelaEvaluator.exe). Digit 2002 - работает  только с одной встроенной программой - с другими не хочет - так уж устроен.
5. Сакрамент - Рассказчик 3 (TalkerPro) 1 CD SAPI5 . В комплекте 2 голоса (+ 1 дополнительный отдельно -или +2 по разным источникам) - Судя по образцам с сайта производителя качество голосов не очень - однако судя по отзывам пользователей немного лучше чем Nicolai. Цена диска на рынке 150 руб. Без диска не работает - диск защищен "StarForce 3.02 protector" - так-что образ диска не создашь. вот и придется как захочешь что-нибудь послушать - вставлять диск, но мне надоело (достало).
6. Сакрамент - Рассказчик 2 (Игорь + Вика=9MB + Юлия=2.5MB) SAPI5- (+ Ольга-5.1Мб / Ирина-4.2Мб / Вячеслав-4.7Мб / Юра-2.2Мб) Sakrament Teller -  что-то улучшено но не очень заметно по сравнению с предыдущими версиями от Сакрамента за исключением разнообразия Мужской/Женский голоса.
7. Сакрамент - Рассказчик 1 (Борис) 6.5MB SAPI5 - Хуже чем Nicolai и Катерина но лучше чем все другие.
8. Иван - Ivan (Tigrix) 1.5MB SAPI4 То-же среднего качества (по моему близко около первого Сакрамента).
9. Magic -Gooddy 2004 (ver: 98->2000->2004) 28MB SAPI4: Старая программа для Windows 98 ->XP - точно не помню но кажется это был словарь вместе с TTS - качество чуть лучше чем L&H 3000. Тоже одна из первых разработок для русского языка.
10. Оратор (Orator) 4.5MB- сам не тестировал но судя по образцам до Nicolai далеко.
11. Speaking Mouse 3MB - то-же что и ниже но немного по-лучше.
12. L&H 3000 (Lernout & Hauspie) SAPI4  (мужской и женский голос) 3MB - Что-то слабо похожее на русскую речь.
 
Итого - 22 (или 24 по разным источникам) возможных голосов на Русском языке.
 
В общем я лично пока рекомендую (из общедоступных) только 4 голоса:
 
  1)  Acapela-Group Алёна 22Khz - SAPI5/SAPI4
  2)  Loquendo Ольга / Loquendo Дмитри
  3)  Nicolai (v5.1 - лучше чем 4.2 так как говорят что исправлены многие ошибки в том числе слежение за текстом и соответствие анимации движения губ в приложениях использующих визуальных агентов для сопровождения речи) и
  4)  Katerina  
 (остальные пока слушать трудно - в следствии более низкого качества) но стоит упомянуть об их болезнях:
 
  Многие считают что: Nicolai - голос выразительного дауна (или выразительного робота). Katerina - истерическая алкоголичка (или алкоголическая истеричка) в следствии её интонаций. (Все выражения и оценки взяты из других форумов).
 
  5) - как опция Сакрамент - Рассказчик 3 - но проблема с диском.
 
Ну а программы для их использования - это дело вкуса и отдельный разговор.
 
По поводу других языков - из самых известных производителей можно отметить достижения следующих разработчиков:
 
Loquendo :: Cepstral :: Acapela Group (Former Elan Speech / Babel) :: Nuance RealSpeak :: AT&T Natural Voices :: NeoSpeech VoiceText (Kate (230MB) / Paul (230MB))
 
+ Bonus: Acapela Group 30-Day Trial (Arabic (Salma / Nawfal) / 25 голосов)

Движки для распознавания речи (SR):

  • Горыныч :: Диктограф
     
    Внимание! Обсуждение движков для распознавания речи ведем в этой теме.

    Дополнительные экранные персонажи:

  • Microsoft Agent Ring :: Zero2000 :: MyDevotion :: DesktopMates
  • Microsoft Agent Character Editor + руководство по использованию

    Программы для чтения текста голосом (говорилки):

  • DeskBot (рекомендуется версия mini) - полное использование всех наворотов технологий Microsoft Agent и Text-to-Speech: анимированные персонажи, чтение текстовых файлов, документов MS Office и буфера обмена через SAPI 4.0, напоминание времени, звуковые эффекты - реверберация, шепот и др., всего 1 Мб.

  • Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 19:57 13-10-2006 | Исправлено: vadim1275, 15:07 30-04-2019
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Более того, как-то раньше обращался  к Ajaja c просьбой:
    Цитата  
    Может быть Вам несложно было написать упрощенный вариант для работы с Катей. По-прежнему являюсь ее сторонником.
     
    ответ:

    Цитата:
    Я тоже несколько лет использовал Катю и ее движек хорошо изучил. В rssoloapi.dll есть соответствующая функция ssft_ttsGetWordTranscriptions, которая позволяет получать транскрипции. Так что, теоретически, можно сделать проверку и для нее. Но сам я за это вряд ли возьмусь за это, т.к. с выходом Алены полностью перешел на нее. Да и работы там немало (в части разбора ее транскрипции). Но если кто-то займется или хотя бы просто напишет проверку (и правку) ударений в Катиных транскрипциях на С/С++, то помогу.

     
    Пока автор доволен Аленой и его планы по Ольге неизвестны. Думается для спецов не составит большого труда при наличии SDK на Ольгу переделать програмулину. Из нюансов оригинала могу отметить наличие проверки на нахождение в словаре ранее внесенных слов.
     

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 12:37 26-10-2008 | Исправлено: lapidus2000, 13:09 26-10-2008
    evilone666



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    в общем вот сделали маленькую страничку поддержки словарей для "Аленки" hxxp://tts-alenka.narod.ru/ кто хочет "модерировать" пм мне я кину пароли.

    Всего записей: 327 | Зарегистр. 03-11-2006 | Отправлено: 00:33 27-10-2008
    Stroodder



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    lapidus2000
    А какой смысл делать утилиту для Ольги, если фонемный словарь к движку привинтить способа пока что нет и неизвестен символ, с которым мягкие гласные звучат правильно при вставке ударения " ^ " - этот символ корректно работает только с твердыми гласными?

    Всего записей: 666 | Зарегистр. 21-10-2004 | Отправлено: 06:32 27-10-2008
    Ajaja

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    А какой смысл делать утилиту для Ольги, если фонемный словарь к движку привинтить способа пока что нет  

    Почему нет? А  \lexicon ? Вроде нормально работает, если кодировка *.lex-файла windows-1251.

    Код:
    <?xml version="1.0" encoding="windows-1251"?>
    <loqlexicon version="1.1">
    <section sorted="yes">
    "большая" = "\SAMPA=(b"ol'S@jV#)"
    <!---->
    </section>
    </loqlexicon>
     

     
     

    Цитата:
    и неизвестен символ, с которым мягкие гласные звучат правильно при вставке ударения " ^ " - этот символ корректно работает только с твердыми гласными?

    Так в транскрипциях ударения - это символы " (двойная кавычка) и % (вторичное ударение).
     
    Глубоко я этот движок не копал. Меня в первую очередь в нем низкая скорость речи не устраивает. Так что сам я писать к нему пока ничего не собираюсь, но, IMHO, особых проблем с фонетическими транскрипциями там не должно быть.
     

    Всего записей: 1032 | Зарегистр. 17-06-2004 | Отправлено: 13:51 27-10-2008
    Stroodder



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Ajaja
    Ну да, ударения как и должно быть по SAMPA в фонемах работают, тэг \lexicon где имеете в виду работает? В родных читалках движка?  С самими транскрипциями проблем особых действительно нет, пока не знаю способа как подключить словарь XML к Ольге, чтобы он функционировал на уровне движка во всех SAPI-программах, как это реализовано в Алене в менеджере словарей.

    Всего записей: 666 | Зарегистр. 21-10-2004 | Отправлено: 14:19 27-10-2008 | Исправлено: Stroodder, 14:22 27-10-2008
    Ajaja

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Stroodder
    Цитата:
    пока не знаю способа как подключить словарь XML к Ольге, чтобы он функционировал на уровне движка во всех SAPI-программах, как это реализовано в Алене в менеджере словарей.

    В SAPI5 один словарь подключить проблем нет:

    Код:
    [HKEY_LOCAL_MACHINE\SOFTWARE\Loquendo\LTTS7\LoqSAPI5]
    "Lex.1049"="e:/ggg.lex"

    А вот как несколько словарей подключить - непонятно, надо будет ковырять дальше.

    Всего записей: 1032 | Зарегистр. 17-06-2004 | Отправлено: 15:29 27-10-2008
    trubodur82

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Stroodder и
    Ajaja
    ребят ну раскавыряйте нам ольгу пжалста страна смотрит на вас! от буржуев видно не дождешся

    Всего записей: 12 | Зарегистр. 28-08-2008 | Отправлено: 16:19 27-10-2008
    Stroodder



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Ajaja
    С VistaX64 параметры из мануалов Ольги работать не хотят, все мои попытки на этой машине пока наверное бесполезны.

    Всего записей: 666 | Зарегистр. 21-10-2004 | Отправлено: 17:00 27-10-2008
    Ajaja

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Stroodder

    Цитата:
    С VistaX64 параметры из мануалов Ольги работать не хотят

    А если регмон на нее натравить? У меня в WinXP SP3 движок через SAPI5 проверяет следующие параметры в реестре:
    Подробнее...

    Всего записей: 1032 | Зарегистр. 17-06-2004 | Отправлено: 17:16 27-10-2008
    dimzdrec33



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    Глубоко я этот движок не копал. Меня в первую очередь в нем низкая скорость речи не устраивает.

    Ajaja
     
    Через читалку TTSApp.exe из дистрибутива скорость очень даже приличная.

    Всего записей: 1238 | Зарегистр. 20-07-2005 | Отправлено: 18:12 27-10-2008
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Еще понять бы как писать регулярные выражения в соответствующей секции словаря, цены бы Ольге не было.
     
    Добавлено:
    Stroodder

    Цитата:
    С VistaX64 параметры из мануалов Ольги работать не хотят, все мои попытки на этой машине пока наверное бесполезны.

    А какие тэги? На одном из форумов я уже упоминал, что в пути к файлу словаря не должно быть русских букв. Я по этим граблям долго бегал .

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 18:26 27-10-2008
    Ajaja

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    dimzdrec33

    Цитата:
    Через читалку TTSApp.exe из дистрибутива скорость очень даже приличная.

    Для меня медленная На своей максимальной скорости (100) Ольга говорит в полтора раза медленее Алены на той скорости на которой я ее слушаю (225). Выходит средняя книга прослушивается не за 4 часа, а за 6 Я как раз из-за этого с Николая на Катю перешел, а потом на Алену -  чем быстрее движок умеет говорить не теряя разборчивости, тем быстрее проглатываются книги

    Всего записей: 1032 | Зарегистр. 17-06-2004 | Отправлено: 18:53 27-10-2008 | Исправлено: Ajaja, 19:20 27-10-2008
    Ajaja

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    lapidus2000

    Цитата:
    Еще понять бы как писать регулярные выражения в соответствующей секции словаря, цены бы Ольге не было.

     
    Разве в словарь? По-моему надо "C:\Program Files\Loquendo\LTTS7\data\languages\Russian\Russian.rex" править.

    Всего записей: 1032 | Зарегистр. 17-06-2004 | Отправлено: 21:07 27-10-2008
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Ajaja

    Цитата:
    По-моему надо "C:\Program Files\Loquendo\LTTS7\data\languages\Russian\Russian.rex" править.

     
    А секция REGEXP в словаре? Только оформление правил не понятно.
     
    Хотя если ваш вариант заработает, буду признателен за объяснение принципа их внесения в C:\Program Files\Loquendo\LTTS7\data\languages\Russian\Russian.rex
     
    C:\Program Files\Loquendo\LTTS7\data\languages\Russian\Russian.rex
    Больше похож на на настроечный файл движка от разработчиков.
    Последствмя его правки могут быть непредсказуемы.
    А вот запись в словаре имеет все же локальное действие.
    В экспериментах использовал форму $1 а не \1 может имеет значение.
     
     

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 12:10 28-10-2008 | Исправлено: lapidus2000, 12:34 28-10-2008
    Ajaja

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    lapidus2000

    Цитата:
    А секция REGEXP в словаре?

    Мне кажется, это задел на будущее. Во всяком случае, у меня не получилось заставить его работать. Видимо "CURRENTLY NOT IMPLEMENTED" (с).

    Всего записей: 1032 | Зарегистр. 17-06-2004 | Отправлено: 14:04 28-10-2008
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    Мне кажется, это задел на будущее. Во всяком случае, у меня не получилось заставить его работать. Видимо "CURRENTLY NOT IMPLEMENTED" (с).

     
    У меня тоже пока не работает. Жаль, мощное средство. Хотя и так возможности словаря крутые. Поддерживает словосочетания.
     
    Все-же регэкспы должны как-то работать. Вот из описания директора на сайте:
     
    It is also possible to create (with a standard editor) a User Pronunciation Lexicon which contains a set of
    context-dependent pronunciation rules, e.g. “a single ‘m’ following a number is read as ‘meters’”, expressed
    in the standard syntax of regular expressions.

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 16:31 28-10-2008 | Исправлено: lapidus2000, 17:12 28-10-2008
    Ajaja

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    lapidus2000

    Цитата:
    У меня тоже не работает. Жаль, мощное средство

    Но ведь ничего не мешает править Russian.rex. Его надо просто пересохранить в формат CR LF (конец строки - \r\n)  и править в блокноте. Все работает.

    Всего записей: 1032 | Зарегистр. 17-06-2004 | Отправлено: 16:57 28-10-2008
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Ajaja

    Цитата:
     Все работает.

    Синтаксис далек от стандартного. Не работают \d \w как групповые заменители.
     
    Цитата:
     Его надо просто пересохранить в формат CR LF (конец строки - \r\n)

    А это обязательно? Вроде и так работает.

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 00:16 29-10-2008
    Stroodder



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Поковырял Ольгу, сконвертил пробный словарь из exc_rus от Николая в XML с исправлением ошибок произношения "йо-кнутых" гласных при подстановке ударения (возможно отловил еще не все в конвертере), подключил словарь. Имхо звучит хуже, чем без словаря и с интерпретацией словосочетаний что-то не то.
    Пробник закинул на _http://ifolder.ru/8796587
     
    Ajaja
    Под WinVistax64 словарь так и не подключил, регмон не нужен, путь, где Vistaх64 хранит ветки х86 приложений известн, дело в том, что сам тэг подключения словаря не работает ни в директоре, ни где-либо еще, под ХР все пучком. В панели управления Ольги не видно, под SAPI5 читалки его тоже не видят -  по-видимому баг работы движка с вистой.

    Всего записей: 666 | Зарегистр. 21-10-2004 | Отправлено: 07:09 29-10-2008 | Исправлено: Stroodder, 08:25 29-10-2008
    Ajaja

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    lapidus2000

    Цитата:
    А это обязательно? Вроде и так работает.

    Конечно, не обязательно, просто тогда редактор нужен, который с нестандарнным для виднды концом строк работает.
     
    Stroodder

    Цитата:
    дело в том, что сам тэг подключения словаря не работает

    А если попробовать задать путь к словарю так: "file://e:/lexicon.lex"?
    И кодировка словаря точно не UTF-8? (У меня и в ХР нормально только windows-1251 и UTF-16 работают).

    Всего записей: 1032 | Зарегистр. 17-06-2004 | Отправлено: 08:36 29-10-2008 | Исправлено: Ajaja, 09:36 29-10-2008
    Открыть новую тему     Написать ответ в эту тему

    Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

    Компьютерный форум Ru.Board » Компьютеры » Программы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)


    Реклама на форуме Ru.Board.

    Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
    Modified by Ru.B0ard
    © Ru.B0ard 2000-2024

    BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

    Рейтинг.ru