Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Активные темы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

Открыть новую тему     Написать ответ в эту тему

vikkiv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Microsoft Agent / Speech API
 
   
 
Microsoft Agent - это набор программных сервисов, поддерживающих воспроизведение интерактивных анимированных персонажей в рамках интерфейса Windows. Разработчики могут использовать эти персонажи для создания различных интерактивных приложений и справочных систем, а также для представления информации в HTML-документах различными способами. В дополнение к поддержке обычного способа ввода информации с помощью клавиатуры и мыши Microsoft Agent предлагает поддержку распознавания голосовой информации (с помощью технологии Microsoft Speech API (SAPI)), позволяя управлять приложениями на уровне голосовых команд. Персонажи также могут воспроизводить синтезированную речь, аудиофрагменты или текст в специальном окне. Для поддержки голосовых функций в системе должны быть установлены Microsoft Agent 2.0, компоненты ядра Microsoft Speech API 4.x/5.x и движки для воспроизведения и распознавания речи (Text-to-Speech / Speech Recognition) на нужном языке. По желанию можно также установить дополнительные экранные персонажи.
Microsoft Agent 2.0 + Speech API 4.0 + Speech API 5.1 + Lernout & Hauspie TTS3000 Russian TTS Engine для Windows 95-Vista - полный комплект всех необходимых файлов, кроме локализаций и движков на языках отличных от русского и инструментов для разработчиков. Windows ME-Vista уже включают Microsoft Agent 2.0 и экранный персонаж Merlin. В Windows 2000 также входит Speech API 4.0, а в Windows XP-2003/Vista - Speech API 5.1/5.3. В Windows 9x и Windows 7 требуется полная установка всех компонентов, причем для Windows 7 Microsoft Agent доступен в виде специального исправления.

[c]Движки для синтеза речи (TTS):

Хотелось-бы обобщить разговоры о различных синтезаторах речи (Text-to-Speech - TTS) для PC, а то сообщения появляются довольно редко в каждом отдельном тематическом разделе.
 
Ниже идёт список голосов/синтезаторов речи для русского языка (в примерном порядке убывания качества):
 
1. Acapela-Group Алёна 22Khz - 150Mb - SAPI5/SAPI4 - Релиз в первой половине 2008-го года. Перед установкой 30-ти дневной демо версии Алёны необходимо установить ядро (~23 MB). Образец
2. Loquendo Ольга / Loquendo Дмитри ~100MB - SAPI5  - Первый релиз в конце 2008-го года. Образец1, Образец2
3. ScanSoft Катерина  22Khz - 44MB - SAPI5 (бывшая Татьяна-SAPI4) - что-то близко или даже немного/много лучше Николая (хотя у Татьяны не было такого истерического характера). Образец
4. Speech Cube Elan v5.1 - Николай (Nicolai) 16Khz - 12MB SAPI4 + SAPI5 - эволюция Digit (2002) 8MB ili Digalo (2000) 7.5MB, с поддержкой не только SAPI4 но и SAPI5 + возможность использования в нескольких программах одновременно (многоканальность) известные версии 4.2. и 5.1 а так-же Телеком и Мултимедиа. (в новых версиях Speech Cube Nicolaja пока не видно - ver 5.2 и 6.0). Из подверсий можно отметить Acapela Multimedia - SDK (ettsengine.exe), Acapela Telecom (SpeechCube.exe / acatel_srv.exe) и Acapela Evaluator (ElanTempoEvaluator.exe / ElanSaysoEvaluator.exe / AcapelaEvaluator.exe). Digit 2002 - работает  только с одной встроенной программой - с другими не хочет - так уж устроен.
5. Сакрамент - Рассказчик 3 (TalkerPro) 1 CD SAPI5 . В комплекте 2 голоса (+ 1 дополнительный отдельно -или +2 по разным источникам) - Судя по образцам с сайта производителя качество голосов не очень - однако судя по отзывам пользователей немного лучше чем Nicolai. Цена диска на рынке 150 руб. Без диска не работает - диск защищен "StarForce 3.02 protector" - так-что образ диска не создашь. вот и придется как захочешь что-нибудь послушать - вставлять диск, но мне надоело (достало).
6. Сакрамент - Рассказчик 2 (Игорь + Вика=9MB + Юлия=2.5MB) SAPI5- (+ Ольга-5.1Мб / Ирина-4.2Мб / Вячеслав-4.7Мб / Юра-2.2Мб) Sakrament Teller -  что-то улучшено но не очень заметно по сравнению с предыдущими версиями от Сакрамента за исключением разнообразия Мужской/Женский голоса.
7. Сакрамент - Рассказчик 1 (Борис) 6.5MB SAPI5 - Хуже чем Nicolai и Катерина но лучше чем все другие.
8. Иван - Ivan (Tigrix) 1.5MB SAPI4 То-же среднего качества (по моему близко около первого Сакрамента).
9. Magic -Gooddy 2004 (ver: 98->2000->2004) 28MB SAPI4: Старая программа для Windows 98 ->XP - точно не помню но кажется это был словарь вместе с TTS - качество чуть лучше чем L&H 3000. Тоже одна из первых разработок для русского языка.
10. Оратор (Orator) 4.5MB- сам не тестировал но судя по образцам до Nicolai далеко.
11. Speaking Mouse 3MB - то-же что и ниже но немного по-лучше.
12. L&H 3000 (Lernout & Hauspie) SAPI4  (мужской и женский голос) 3MB - Что-то слабо похожее на русскую речь.
 
Итого - 22 (или 24 по разным источникам) возможных голосов на Русском языке.
 
В общем я лично пока рекомендую (из общедоступных) только 4 голоса:
 
  1)  Acapela-Group Алёна 22Khz - SAPI5/SAPI4
  2)  Loquendo Ольга / Loquendo Дмитри
  3)  Nicolai (v5.1 - лучше чем 4.2 так как говорят что исправлены многие ошибки в том числе слежение за текстом и соответствие анимации движения губ в приложениях использующих визуальных агентов для сопровождения речи) и
  4)  Katerina  
 (остальные пока слушать трудно - в следствии более низкого качества) но стоит упомянуть об их болезнях:
 
  Многие считают что: Nicolai - голос выразительного дауна (или выразительного робота). Katerina - истерическая алкоголичка (или алкоголическая истеричка) в следствии её интонаций. (Все выражения и оценки взяты из других форумов).
 
  5) - как опция Сакрамент - Рассказчик 3 - но проблема с диском.
 
Ну а программы для их использования - это дело вкуса и отдельный разговор.
 
По поводу других языков - из самых известных производителей можно отметить достижения следующих разработчиков:
 
Loquendo :: Cepstral :: Acapela Group (Former Elan Speech / Babel) :: Nuance RealSpeak :: AT&T Natural Voices :: NeoSpeech VoiceText (Kate (230MB) / Paul (230MB))
 
+ Bonus: Acapela Group 30-Day Trial (Arabic (Salma / Nawfal) / 25 голосов)

Движки для распознавания речи (SR):

  • Горыныч :: Диктограф
     
    Внимание! Обсуждение движков для распознавания речи ведем в этой теме.

    Дополнительные экранные персонажи:

  • Microsoft Agent Ring :: Zero2000 :: MyDevotion :: DesktopMates
  • Microsoft Agent Character Editor + руководство по использованию

    Программы для чтения текста голосом (говорилки):

  • DeskBot (рекомендуется версия mini) - полное использование всех наворотов технологий Microsoft Agent и Text-to-Speech: анимированные персонажи, чтение текстовых файлов, документов MS Office и буфера обмена через SAPI 4.0, напоминание времени, звуковые эффекты - реверберация, шепот и др., всего 1 Мб.

  • Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 19:57 13-10-2006 | Исправлено: vadim1275, 15:07 30-04-2019
    LAndrew



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    поскольку тут специалистов больше, то спрошу - есть ли синтезатор голоса для КПК (Pocket PC) с поддержкой командной строки? (последнее - очень важно! sakrament - не подходит!)

    Всего записей: 390 | Зарегистр. 10-05-2003 | Отправлено: 13:47 02-12-2007
    vikkiv



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    есть ли синтезатор голоса для КПК  

    Насчет командной строки не-знаю, но для КПК годится MobileSpeak. Из русских голосов там к сожалению только Сакрамент - зато другие Акапела и т.д. Может там какая-нибудь поддержка comand_line. Такое-вот предположение, но фактов или другой информации нету.

    Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 00:13 18-12-2007 | Исправлено: vikkiv, 00:19 18-12-2007
    vikkiv



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Вот тут нашёл хорошие голоса для Говорилок:
    Примите во внимание что:
        1) Loquendo это не готовые голоса а только SpeechPack без самого SAPI5 движка
        2) Прекрасно работают на движке от старых голосов (от qualisoftware / qualispeak) которые широко доступны в сетях (но низкого качества т.к. размер около 30~40Мб) + #Скрыто#.
        3) Установку производить в директорию X:/Program Files/Loquendo/LTTS/ (Где Х - ваш диск)
        4) В большинстве голосов Loquendo работают эмоциональные тэги.
        5) #Скрыто#
    Английский
              Neospeech
                         Kate1 (235MB)   Kate2 (230MB)
                         Paul1 (235MB)   Paul2 (230MB)
              Loquendo
                         Simon1 (275MB)   Simon2 (300MB)
                         Kate1 (290MB)   Kate2 (310MB)
                         Susan (230MB)
                         Dave (270MB)
                         Elizabeth (182MB)
    Испанский
              Loquendo
                         Carlos (230MB)
                         Carmen (185MB)
                         Jorge (170MB)
    Португальский
              Loquendo
                         Gabriela (235MB)
    Шведский
              Loquendo
                         Annika (415MB)
    Греческий
              Loquendo
                         Afroditi (182MB)
    Французкий
              Loquendo
                         Bernard1 (157MB)   Bernard2 (170MB)
                         Juliette1 (220MB)   Juliette2 (230MB)
    Немецкий
              Loquendo
                         Stefan (260MB)
                         Katrin (275MB)
    Итальянский
              Loquendo
                         Luca (200MB)
                         Paola (200MB)
    Датцкий
              Loquendo
                         Willem (270MB)
                         Saskia (265MB)
    Японский
              Neospeech
                         Show (646MB)
                         Misaki (530MB)
    Китайский
              Neospeech
                         Wang (203MB)
                         Lily (520MB)
     
    Через неделю дам ссылки на голоса AT&T и оставшийся пакет от NeoSpeech
     
    Сервера для скачивания все легальные (просто наверное админам зарплату урезают - так они молодцы и работают по принципу рыночной экономики = "сколько платят - на столько и работаем").Подробнее....

    Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 17:00 31-12-2007 | Исправлено: vikkiv, 08:49 04-01-2008
    SelenaNight



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    vikkiv
    Ссылка на Dave с ошибкой:  вместо loquendosdave.exe надо loquendodave.exe
     
    Огромное спасибо! Будем ждать продолжения
     

    Всего записей: 335 | Зарегистр. 27-02-2006 | Отправлено: 03:04 02-01-2008
    vikkiv



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    SelenaNight

    Цитата:
    ..вместо loquendosdave.exe надо loquendodave.exe

        Ok, исправил; спасибо

    Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 17:26 02-01-2008
    vikkiv



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Вот как обещал следующая партия TTS движков с легальных серверов (от высказыванний в адрес владельцев сайта воздержусь): www.flamespeech.com
    Tам в разделе "Voices" можно найти голоса от АТ&T и NeoSpeech
    Японский
            Miyu 430MB
            Show 625MB
    Корейский
            Yumi 535MB
            JunWoo 360MB
    Французкий
            Juliette 645MB
            Alain 640MB
    Английский
            Audrey 720MB
            Charles 740MB
            Claire 575MB
            Crystal 575MB
            Julia 600MB
            Lauren 880MB
            Mel 525MB
            Mike 600MB
            Ray 580MB
            Rich 425MB
            Kate 230MB
            Paul 230MB
    Немецкий
            Klara 620MB
            Reiner 700MB
    Испанский
            Rosa 715MB
            Alberto 690MB

    Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 08:29 04-01-2008 | Исправлено: vikkiv, 08:45 04-01-2008
    SergeySPB

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Спасибо.
    И какой английский голос на ваш взгяд лучший на сегодня?

    Всего записей: 39 | Зарегистр. 09-02-2006 | Отправлено: 21:55 04-01-2008
    vikkiv



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Ответ конечно субъективный будет.. хотя если отфильтровать эмоции и "нравится ненравится" то в первую группу по качеству произношения можно включить (по крайней мере эти иcпользую периодически а остальные удалил):
         Kate / Paul  (Neospeech)
         Ryan / Heather / Lucy (Acapela/Elan)
         Kate / Simon / Dave (Loquendo)
         Lee / Daniel / Karen (Nuance / ScanSoft)
    порядок здесь абсолютно неважен
    А что лучше из AT&T или Cepstral сразу сказать неcмогу, надо вспоминать или тестировать по новой.

    Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 22:35 04-01-2008 | Исправлено: vikkiv, 22:37 04-01-2008
    vikkiv



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Новый пакет от "AT&T Natural voices" с сайта NextUp (голоса не включённые в предыдущие списки помечены жирным синим цветом). Для запуска любого голоса AT&T (без установки первого диска Mike/Crystal) в редких случаях (и только! Не ставьте если и так всё работает!) необходимо установить движок:
    English
            Crystal-US
            Mike-US
            Julia-US
            Lauren-US
            Mel-US
            Ray-US
            Rich-US
            Claire-US
            Audrey-UK
            Charles-UK
                    Anjali-Indian
    Spanish
            Alberto
            Rosa
    German
            Klara
            Reiner
    French
            Alain
            Juliette
                    Arnaud-Canadian
    Japanese (вместо директории "3g" можно набрать "3z" - там то-же самое) То-же вместо ttsvoices.com=nextupdownloads.com
            NeoSpeech Miyu
            NeoSpeech Show
    Korean (вместо директории "3g" можно набрать "3z" - там то-же самое) То-же вместо ttsvoices.com=nextupdownloads.com
            NeoSpeech JunWoo
            NeoSpeech Yumi
     
    Эти линки убъют довольно быстро - в течении одной-двух недель (если не раньше)....
     
         P/S Бонус - Acapela 2 голоса Arabic 30 day demo - 2 voices Salma/Nawfal

    Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 01:04 14-01-2008 | Исправлено: vikkiv, 11:03 22-01-2008
    SergeySPB

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Спасибо.
    Казалось бы,чем больше голос занимает места,тем натуральнее должен голос звучать.
    Ведь он обладает более богатой базой данных.
    Тоесть, большие голоса АТТ, по идее, должны звучать лучше.
    Ведь 880МВ впечатляют.
    Но не могу сказать,что я улавливаю в образцах на сайте разницу.
    Может быть разница сказывается на больших отрезках текста?
     
    А голоса Loquendo проигрываются движком  nextup?
     
     

    Всего записей: 39 | Зарегистр. 09-02-2006 | Отправлено: 02:08 16-01-2008
    Yeeshik

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    голоса Loquendo проигрываются движком  nextup?

    Нет, не проигрываются.
     
    Кстати, Локвендо с нетсбрайн содержат движок.

    Всего записей: 185 | Зарегистр. 02-11-2006 | Отправлено: 08:17 16-01-2008
    SergeySPB

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    не проигрываются...Локвендо с нетсбрайн содержат движок.

    а наоборот, на этом движке, голоса АТТ и прочие проигрываться будут?
    Я подозреваю,что нет.
    Речь идет о том,чтобы смешивать разные голоса, озвучивая один текст.

    Всего записей: 39 | Зарегистр. 09-02-2006 | Отправлено: 22:17 17-01-2008
    vikkiv



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Лучше разобраться о чём здесь идёт речь -  
          1) либо о пльзовательской программе-интерфейсе для работы с движками типа TextAloud MP3Book2005 CoolReader и.т.д.
          2) либо о API интерфейсе и ядре через который производитель движка работает в среде (Windows) для связи с приложениями.
          "Loquendo - SpeechPack" и "A&TT Natural Voices" без ядра - это всего лишь частные случаи когда в комплекте с ними оно (ядро/движок) не идёт; пакетам от других производителей это не помогает и не мешает. Движок с инсталяцией весит пару мегабайт (на самом деле сам всего-лишь до одного мегабайта) так-что скачать и установить его - это не проблема, к тому-же систему он не грузит и подключается только при использовании голоса от этого производителя.
     
        Для переключения голосов в программах можно изпользовать тэги или функции самой программы, в TextAloud например реализация такая:
    <voice required="name = Scansoft Katerina_Full_22kHz">Привет Коля!
    <voice required="name = ELAN TTS Russian (Nicolai 16Khz)">Здравствуй Катерина, рад встрече!
    <voice required="name = Scansoft Katerina_Full_22kHz">Как у тебя дела?
    <voice required="name = ELAN TTS Russian (Nicolai 16Khz)">Прекрасно, а ты сессию уже сдала?

    Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 07:52 18-01-2008 | Исправлено: vikkiv, 08:01 18-01-2008
    SelenaNight



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Заметила одну особенность Николая 5.1
    Сначала я даже решила, что SAPI4 не работает вообще, а оказалось, что по умолчанию громкость голоса на нуле. Поэтому его просто не слышно.
    Кто-нибудь знает, как эту установку поправить? А то каждый раз лезть настраивать очень не удобно.

    Всего записей: 335 | Зарегистр. 27-02-2006 | Отправлено: 21:23 20-01-2008
    vikkiv



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    При первичной разработке Николая из дистрибъютива разработчика который содержал 27 голосов выбросил практически всё кроме того что имело отношение к Николаю и SAPI5 (лекарства добавлялись позже и другими) поддержка SAPI4 не проверялась - может там и попалось что-нибудь из настроек нужное под горячую руку. Ну это так - один из возможных вариантов деффекта. Сам ответ на вопрос может зависеть от программы в которой используется Коля - например в ТекстАлоуд в опциях установливаются настройки каждого голоса (и запоминаются) как для SAPI4 так и для SAPI5. Лучший вариант конечно переключится на SAPI5.

    Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 23:34 20-01-2008
    SelenaNight



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    vikkiv
    Жаль, что нельзя поправить...
    Пользуюсь ICEReader
    Там при выборе голоса применяются установки по умолчанию для данного голоса, которые можно корректировать при желании
    Но есть программы, использующие TTS вообще без регулировок, применяются эти самые по умолчанию
    Впрочем, старый дигало2000 работает, так что не беда

    Всего записей: 335 | Зарегистр. 27-02-2006 | Отправлено: 00:03 21-01-2008
    vikkiv



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    На уровне SAPI4 вряд-ли они чем-то отличаются - дигало2000 и "новый" Коля это на самом деле одно и то-же (по крайней мере пока никто разницу не слышит). Там вроде только ядро меняли вместе с разработкой других голосов - вот и Колю переставляли на новый движок, а речевая база без изменений.

    Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 01:23 21-01-2008
    SelenaNight



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    это понятно
    просто у "старого" Коли по умолчанию громкость на максимуме а из Acapela-Elan-TTS-SpeechCube-SaySo-Tempo-28oldVoicesCracked.exe по умолчанию громкость на нуле

    Всего записей: 335 | Зарегистр. 27-02-2006 | Отправлено: 01:35 21-01-2008
    SergeySPB

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    ... о чём здесь идёт речь -  "Loquendo - SpeechPack" и "A&TT Natural Voices" без ядра - это всего лишь частные случаи когда в комплекте с ними оно (ядро/движок) не идёт; пакетам от других производителей это не помогает и не мешает. Движок с инсталяцией весит пару мегабайт (на самом деле сам всего-лишь до одного мегабайта) так-что скачать и установить его - это не проблема, к тому-же систему он не грузит и подключается только при использовании голоса от этого производителя.  

    Спасибо, я об этом и спрашивал. Попытался TextAloud-ом проиграть голос Loquendo. Понятно, что не идет, ибо движок нужен.А где можно скачать этот двухмегабайтный движок, не подскажите?

    Всего записей: 39 | Зарегистр. 09-02-2006 | Отправлено: 07:12 24-01-2008
    vikkiv



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    #Скрыто#
    Как альтернатива
     а) можно в Муле найти Loquendo SDK 6.5 или версия 6.6 (40~240 MB);
    или
     б) Любой в Муле голос от производителя Qualispeak + #Скрыто#.
    Не забудь что Спичпаки надо ставить в директорию ...\Program Files\Loquendo\LTTS\ а не ту которая идёт по умолчанию ...\Program Files\Loquendo\.
    Самый лёгкий вариант смотри в ПМ.

    Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 10:31 24-01-2008 | Исправлено: vikkiv, 10:34 24-01-2008
    Открыть новую тему     Написать ответ в эту тему

    Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

    Компьютерный форум Ru.Board » Компьютеры » Программы » Активные темы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)


    Реклама на форуме Ru.Board.

    Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
    Modified by Ru.B0ard
    © Ru.B0ard 2000-2024

    BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

    Рейтинг.ru