Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

Открыть новую тему     Написать ответ в эту тему

vikkiv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Microsoft Agent / Speech API
 
   
 
Microsoft Agent - это набор программных сервисов, поддерживающих воспроизведение интерактивных анимированных персонажей в рамках интерфейса Windows. Разработчики могут использовать эти персонажи для создания различных интерактивных приложений и справочных систем, а также для представления информации в HTML-документах различными способами. В дополнение к поддержке обычного способа ввода информации с помощью клавиатуры и мыши Microsoft Agent предлагает поддержку распознавания голосовой информации (с помощью технологии Microsoft Speech API (SAPI)), позволяя управлять приложениями на уровне голосовых команд. Персонажи также могут воспроизводить синтезированную речь, аудиофрагменты или текст в специальном окне. Для поддержки голосовых функций в системе должны быть установлены Microsoft Agent 2.0, компоненты ядра Microsoft Speech API 4.x/5.x и движки для воспроизведения и распознавания речи (Text-to-Speech / Speech Recognition) на нужном языке. По желанию можно также установить дополнительные экранные персонажи.
Microsoft Agent 2.0 + Speech API 4.0 + Speech API 5.1 + Lernout & Hauspie TTS3000 Russian TTS Engine для Windows 95-Vista - полный комплект всех необходимых файлов, кроме локализаций и движков на языках отличных от русского и инструментов для разработчиков. Windows ME-Vista уже включают Microsoft Agent 2.0 и экранный персонаж Merlin. В Windows 2000 также входит Speech API 4.0, а в Windows XP-2003/Vista - Speech API 5.1/5.3. В Windows 9x и Windows 7 требуется полная установка всех компонентов, причем для Windows 7 Microsoft Agent доступен в виде специального исправления.

[c]Движки для синтеза речи (TTS):

Хотелось-бы обобщить разговоры о различных синтезаторах речи (Text-to-Speech - TTS) для PC, а то сообщения появляются довольно редко в каждом отдельном тематическом разделе.
 
Ниже идёт список голосов/синтезаторов речи для русского языка (в примерном порядке убывания качества):
 
1. Acapela-Group Алёна 22Khz - 150Mb - SAPI5/SAPI4 - Релиз в первой половине 2008-го года. Перед установкой 30-ти дневной демо версии Алёны необходимо установить ядро (~23 MB). Образец
2. Loquendo Ольга / Loquendo Дмитри ~100MB - SAPI5  - Первый релиз в конце 2008-го года. Образец1, Образец2
3. ScanSoft Катерина  22Khz - 44MB - SAPI5 (бывшая Татьяна-SAPI4) - что-то близко или даже немного/много лучше Николая (хотя у Татьяны не было такого истерического характера). Образец
4. Speech Cube Elan v5.1 - Николай (Nicolai) 16Khz - 12MB SAPI4 + SAPI5 - эволюция Digit (2002) 8MB ili Digalo (2000) 7.5MB, с поддержкой не только SAPI4 но и SAPI5 + возможность использования в нескольких программах одновременно (многоканальность) известные версии 4.2. и 5.1 а так-же Телеком и Мултимедиа. (в новых версиях Speech Cube Nicolaja пока не видно - ver 5.2 и 6.0). Из подверсий можно отметить Acapela Multimedia - SDK (ettsengine.exe), Acapela Telecom (SpeechCube.exe / acatel_srv.exe) и Acapela Evaluator (ElanTempoEvaluator.exe / ElanSaysoEvaluator.exe / AcapelaEvaluator.exe). Digit 2002 - работает  только с одной встроенной программой - с другими не хочет - так уж устроен.
5. Сакрамент - Рассказчик 3 (TalkerPro) 1 CD SAPI5 . В комплекте 2 голоса (+ 1 дополнительный отдельно -или +2 по разным источникам) - Судя по образцам с сайта производителя качество голосов не очень - однако судя по отзывам пользователей немного лучше чем Nicolai. Цена диска на рынке 150 руб. Без диска не работает - диск защищен "StarForce 3.02 protector" - так-что образ диска не создашь. вот и придется как захочешь что-нибудь послушать - вставлять диск, но мне надоело (достало).
6. Сакрамент - Рассказчик 2 (Игорь + Вика=9MB + Юлия=2.5MB) SAPI5- (+ Ольга-5.1Мб / Ирина-4.2Мб / Вячеслав-4.7Мб / Юра-2.2Мб) Sakrament Teller -  что-то улучшено но не очень заметно по сравнению с предыдущими версиями от Сакрамента за исключением разнообразия Мужской/Женский голоса.
7. Сакрамент - Рассказчик 1 (Борис) 6.5MB SAPI5 - Хуже чем Nicolai и Катерина но лучше чем все другие.
8. Иван - Ivan (Tigrix) 1.5MB SAPI4 То-же среднего качества (по моему близко около первого Сакрамента).
9. Magic -Gooddy 2004 (ver: 98->2000->2004) 28MB SAPI4: Старая программа для Windows 98 ->XP - точно не помню но кажется это был словарь вместе с TTS - качество чуть лучше чем L&H 3000. Тоже одна из первых разработок для русского языка.
10. Оратор (Orator) 4.5MB- сам не тестировал но судя по образцам до Nicolai далеко.
11. Speaking Mouse 3MB - то-же что и ниже но немного по-лучше.
12. L&H 3000 (Lernout & Hauspie) SAPI4  (мужской и женский голос) 3MB - Что-то слабо похожее на русскую речь.
 
Итого - 22 (или 24 по разным источникам) возможных голосов на Русском языке.
 
В общем я лично пока рекомендую (из общедоступных) только 4 голоса:
 
  1)  Acapela-Group Алёна 22Khz - SAPI5/SAPI4
  2)  Loquendo Ольга / Loquendo Дмитри
  3)  Nicolai (v5.1 - лучше чем 4.2 так как говорят что исправлены многие ошибки в том числе слежение за текстом и соответствие анимации движения губ в приложениях использующих визуальных агентов для сопровождения речи) и
  4)  Katerina  
 (остальные пока слушать трудно - в следствии более низкого качества) но стоит упомянуть об их болезнях:
 
  Многие считают что: Nicolai - голос выразительного дауна (или выразительного робота). Katerina - истерическая алкоголичка (или алкоголическая истеричка) в следствии её интонаций. (Все выражения и оценки взяты из других форумов).
 
  5) - как опция Сакрамент - Рассказчик 3 - но проблема с диском.
 
Ну а программы для их использования - это дело вкуса и отдельный разговор.
 
По поводу других языков - из самых известных производителей можно отметить достижения следующих разработчиков:
 
Loquendo :: Cepstral :: Acapela Group (Former Elan Speech / Babel) :: Nuance RealSpeak :: AT&T Natural Voices :: NeoSpeech VoiceText (Kate (230MB) / Paul (230MB))
 
+ Bonus: Acapela Group 30-Day Trial (Arabic (Salma / Nawfal) / 25 голосов)

Движки для распознавания речи (SR):

  • Горыныч :: Диктограф
     
    Внимание! Обсуждение движков для распознавания речи ведем в этой теме.

    Дополнительные экранные персонажи:

  • Microsoft Agent Ring :: Zero2000 :: MyDevotion :: DesktopMates
  • Microsoft Agent Character Editor + руководство по использованию

    Программы для чтения текста голосом (говорилки):

  • DeskBot (рекомендуется версия mini) - полное использование всех наворотов технологий Microsoft Agent и Text-to-Speech: анимированные персонажи, чтение текстовых файлов, документов MS Office и буфера обмена через SAPI 4.0, напоминание времени, звуковые эффекты - реверберация, шепот и др., всего 1 Мб.

  • Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 19:57 13-10-2006 | Исправлено: vadim1275, 15:07 30-04-2019
    Sylvia



    Junior Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    Us2002
    а в какой проге был отличный результат?

    Всего записей: 118 | Зарегистр. 17-11-2005 | Отправлено: 21:59 17-10-2008
    Acerv

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Прослушал Οlga на Coolreader и TextAloud. При настройках по умолчанию Алена на порядок читает лучше и благозвучнее, чем Ольга. У меня получилась Ольга типа бабульки за 80 и с прокуренным мужским голосом. В ТА поддается изменению тембр и возраст, но достичь того как звучит в примерах (см. выше) (особо эмоции) - это похоже титанический труд, тем более что как работать с голосом Ольги до указанного в примерах не ясно. Редактирование слов, как у Алены, похоже тоже не предусмотрено - слушайте то, что забито в базе. Правда в CR начало у Ольги работать расстановка ударений, но на фоне голоса это малый плюс. Имхо, Алена читает лучше
    Us2002 - какие проги использовал для прослушивания?
     
     
    Добавлено:
    провел эксперимент: Открыл окошо SAPI5 TTSAPP от Ольги,  туда скопировал  ее предложение эмоциями - прослушал, уши радуются. Скопировал туда же, ниже вопрос от rufrm со знаком вопроса "можно узнать,  как осуществить последовательнсть установки голоса и движка, что от чего зависит и как они  реализуются при  работе с текстом?" - опять прослушал - уши привяли  

    Всего записей: 39 | Зарегистр. 26-06-2003 | Отправлено: 22:17 17-10-2008
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Подскажите, процесс подключения словаря для Ольги. Вроде все сделано правильно.Но,не срабатывает.

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 17:09 18-10-2008
    evilone666



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    в общем немножко покопавшись выяснили что "ровнять" можно встроенными средствами но не сильно уж красиво все равно выходит.
    В движке есть своя словарная база но довольно скудная. Подгонка осуществляется с помощью поиска в базе похожего слова и расстановке ударения в предложении. Довольно медленно. Т.е. для каждого слова.
     
    Запускаем director manager -> пишем текст -> contoltags - unit selection - tuning
    получаем приблизительно такое  
       
    мышкой кликаем туда где должно быть ударение в слове
    светлые зоны - ударение.
     
    Если кто придумает как автоматизировать подгонку поделитесь секретом.
    А пока что, наверно он (движок) так и позиционировался, годится только для озвучивания коротких фраз и предложений (автоответчик).

    Всего записей: 327 | Зарегистр. 03-11-2006 | Отправлено: 18:19 18-10-2008 | Исправлено: evilone666, 18:20 18-10-2008
    Us2002

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Sylvia
    Acerv
    http://forum.ru-board.com/topic.cgi?forum=35&topic=25544&start=400
    В остальных Оля хуже читала, иногда до отвратного, разве что KoobAudio еще попробуйте.
    После быстрых проверок пришел к выводу, что мало того, что у прог есть свои плюсы и минусу, но кроме этого в них по разному звучат голоса, поэтому оставил полный набор голосов и прог для последующих изысканий оптимальных комбинаций.

    Всего записей: 1810 | Зарегистр. 03-02-2005 | Отправлено: 20:45 18-10-2008 | Исправлено: Us2002, 20:58 18-10-2008
    maK



    Gold Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    KoobAudio еще попробуйте

     
    ныне - Aboo

    Всего записей: 5643 | Зарегистр. 19-12-2003 | Отправлено: 21:15 18-10-2008 | Исправлено: maK, 21:17 18-10-2008
    green654321

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Извиняюсь, но я всё-равно не понял, как установить Алёну, выдается ошибка "to proceed with the installation you need to first to install th text-to-speech engine.Aborting installation."  
     
    Из прочитанного выше, понял, что сначала нужно установить движок, а потом, голос.  
    Я скачал и запускал: Infovox Desktop Pro V2.2, получается, что это голос, а где тогда взять Движок?

    Всего записей: 5 | Зарегистр. 22-12-2006 | Отправлено: 21:11 19-10-2008
    Sylvia



    Junior Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    green654321
    Сначала надо установить InfovoxDesktop2_210Engine.exe - это движок, а потом Alyona22k_ID22.exe - это голос.

    Всего записей: 118 | Зарегистр. 17-11-2005 | Отправлено: 21:18 19-10-2008
    green654321

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Спасибо, Sylvia.

    Всего записей: 5 | Зарегистр. 22-12-2006 | Отправлено: 22:02 19-10-2008 | Исправлено: green654321, 22:12 19-10-2008
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    А пока что, наверно он (движок) так и позиционировался, годится только для озвучивания коротких фраз и предложений (автоответчик).

     
    Движок для профессионалов. И требует к себе такого же отношения.

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 23:16 20-10-2008 | Исправлено: lapidus2000, 23:18 20-10-2008
    evilone666



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    lapidus2000
    та хоть для космонавтов если к нему нету никакой развернутой инструкции пользования вообще на всем качественном должна быть одна кнопка вкл\выкл все остальное для "профессионалов" и  можно крутить до бесконечности...

    Всего записей: 327 | Зарегистр. 03-11-2006 | Отправлено: 02:07 21-10-2008
    soliduz



    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Какой движок наиболее качественно синтезирует английскую речь, порекомендуйте плиз, а то для всестороннего тестирования интернет слабоват...

    Всего записей: 132 | Зарегистр. 18-08-2005 | Отправлено: 03:32 21-10-2008
    korvinio



    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    evilone666: Буха-ха-ха, ну молодец. Пиратку поставили ещё и притензии какие-то диктуете. Когда купите Ольгу, тогда и будет вам инстркуция и поддержка, а пока скажите на том спасибо, что взломали добрые люди.

    Всего записей: 50 | Зарегистр. 12-01-2008 | Отправлено: 03:57 21-10-2008
    Stroodder



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Ну кому как, а мне Ольга понравилась. И обзор ключевых возможностей SDK (aka "мануал") неплохой.  
     
     Вообще, имхо, нужно уже новые форматы словарей организовывать, SAMPA правит миром TTS в настоящее время. Некоторые разрабы ссылаются на неудобство транскрипций, ну что ж поделать, если так принято, пора отходить от упрощений. Это не "закорючки", а своеобразная нотная грамота, дающая массу вариантов произношения. В идеале нужны фонетические таблицы слогов для программеров, чтобы они могли интерпретировать произношение в удобоваримой для юзера форме (напр.: ударение=уда<рение).
     
    P.S.  Для возможности подключения пользовательских словарей (в них, при определенной стандартизации, можно будет и интонацию менять) нужно только одно - в коде программы-читалки, при выборе в настройках движка "Olga", явно включить параметр тэгов:

    Код:
    ttsSetParam(hReader,"TaggedText","true");

    ,  тогда дело шлифования Ольги пошло бы гораздо быстрей.

    Всего записей: 666 | Зарегистр. 21-10-2004 | Отправлено: 06:52 21-10-2008
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    SAMPA это хорошо, но скажу всю правду не тая, у Ольги есть очень простой способ задания ударения, наткнулся случайно. Ну очень простой до неприличия, что мне и  описывать его стыдно. Думаю найти сможет даже ребенок. Так что бегите к MP3book за бесплатной лицензией, кому надо он по Алёне обещал, может и здесь расщедриться.
     
    А если добавить , что движок 48KHz и многое другое...

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 21:29 21-10-2008
    evilone666



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    lapidus2000
    а можно попросить какой-то образец реально записанного текста (пару абзацов), как Ольга читать у тебя уже умеет, только не из библиотеки а простой печатный текст...
    интересно жуть
    спс

    Всего записей: 327 | Зарегистр. 03-11-2006 | Отправлено: 02:55 22-10-2008
    Sylvia



    Junior Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    lapidus2000

    Цитата:
    у Ольги есть очень простой способ задания ударения, наткнулся случайно. Ну очень простой до неприличия, что мне и  описывать его стыдно.

    Какой же Вы скромный и загадочный Придется искать ребенка, который сможет найти этот Ваш способ, ибо мои постаревшие мозги отказываются от поисков...

    Всего записей: 118 | Зарегистр. 17-11-2005 | Отправлено: 11:06 22-10-2008
    Stroodder



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    TTSDirector все же имхо не совсем удобен для изучения интерпретации в фонемы, сделал мелкую утилитку, выложил сюда: _http://slil.ru/26261209 . Пока без вывода в файл словаря. Кстати обнаружились ошибки Ольги при чтении цифр (не всегда реагирует), видимо дело в самом ядре, т.к. и в родной читалке что-то не то.
     
    Для запуска скопировать файл в директорию: X:\Program Files\Loquendo\LTTS7\bin

    Всего записей: 666 | Зарегистр. 21-10-2004 | Отправлено: 12:38 22-10-2008
    dimzdrec33



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    SAMPA это хорошо, но скажу всю правду не тая, у Ольги есть очень простой способ задания ударения, наткнулся случайно. Ну очень простой до неприличия, что мне и  описывать его стыдно. Думаю найти сможет даже ребенок. Так что бегите к MP3book за бесплатной лицензией, кому надо он по Алёне обещал, может и здесь расщедриться.
     
    А если добавить , что движок 48KHz и многое другое...

    lapidus2000
     
    Ну и к чему тут, и еще на других форумах эти понты? Если нашел то поделись или сиди себе тихо радуйся.

    Всего записей: 1238 | Зарегистр. 20-07-2005 | Отправлено: 12:56 22-10-2008
    trubodur82

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    ^ ето и есть знак ударения
     
    Добавлено:
    пример (з^амок,зам^ок)

    Всего записей: 12 | Зарегистр. 28-08-2008 | Отправлено: 17:35 22-10-2008
    Открыть новую тему     Написать ответ в эту тему

    Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

    Компьютерный форум Ru.Board » Компьютеры » Программы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)


    Реклама на форуме Ru.Board.

    Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
    Modified by Ru.B0ard
    © Ru.B0ard 2000-2024

    BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

    Рейтинг.ru