Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

Открыть новую тему     Написать ответ в эту тему

vikkiv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Microsoft Agent / Speech API
 
   
 
Microsoft Agent - это набор программных сервисов, поддерживающих воспроизведение интерактивных анимированных персонажей в рамках интерфейса Windows. Разработчики могут использовать эти персонажи для создания различных интерактивных приложений и справочных систем, а также для представления информации в HTML-документах различными способами. В дополнение к поддержке обычного способа ввода информации с помощью клавиатуры и мыши Microsoft Agent предлагает поддержку распознавания голосовой информации (с помощью технологии Microsoft Speech API (SAPI)), позволяя управлять приложениями на уровне голосовых команд. Персонажи также могут воспроизводить синтезированную речь, аудиофрагменты или текст в специальном окне. Для поддержки голосовых функций в системе должны быть установлены Microsoft Agent 2.0, компоненты ядра Microsoft Speech API 4.x/5.x и движки для воспроизведения и распознавания речи (Text-to-Speech / Speech Recognition) на нужном языке. По желанию можно также установить дополнительные экранные персонажи.
Microsoft Agent 2.0 + Speech API 4.0 + Speech API 5.1 + Lernout & Hauspie TTS3000 Russian TTS Engine для Windows 95-Vista - полный комплект всех необходимых файлов, кроме локализаций и движков на языках отличных от русского и инструментов для разработчиков. Windows ME-Vista уже включают Microsoft Agent 2.0 и экранный персонаж Merlin. В Windows 2000 также входит Speech API 4.0, а в Windows XP-2003/Vista - Speech API 5.1/5.3. В Windows 9x и Windows 7 требуется полная установка всех компонентов, причем для Windows 7 Microsoft Agent доступен в виде специального исправления.

[c]Движки для синтеза речи (TTS):

Хотелось-бы обобщить разговоры о различных синтезаторах речи (Text-to-Speech - TTS) для PC, а то сообщения появляются довольно редко в каждом отдельном тематическом разделе.
 
Ниже идёт список голосов/синтезаторов речи для русского языка (в примерном порядке убывания качества):
 
1. Acapela-Group Алёна 22Khz - 150Mb - SAPI5/SAPI4 - Релиз в первой половине 2008-го года. Перед установкой 30-ти дневной демо версии Алёны необходимо установить ядро (~23 MB). Образец
2. Loquendo Ольга / Loquendo Дмитри ~100MB - SAPI5  - Первый релиз в конце 2008-го года. Образец1, Образец2
3. ScanSoft Катерина  22Khz - 44MB - SAPI5 (бывшая Татьяна-SAPI4) - что-то близко или даже немного/много лучше Николая (хотя у Татьяны не было такого истерического характера). Образец
4. Speech Cube Elan v5.1 - Николай (Nicolai) 16Khz - 12MB SAPI4 + SAPI5 - эволюция Digit (2002) 8MB ili Digalo (2000) 7.5MB, с поддержкой не только SAPI4 но и SAPI5 + возможность использования в нескольких программах одновременно (многоканальность) известные версии 4.2. и 5.1 а так-же Телеком и Мултимедиа. (в новых версиях Speech Cube Nicolaja пока не видно - ver 5.2 и 6.0). Из подверсий можно отметить Acapela Multimedia - SDK (ettsengine.exe), Acapela Telecom (SpeechCube.exe / acatel_srv.exe) и Acapela Evaluator (ElanTempoEvaluator.exe / ElanSaysoEvaluator.exe / AcapelaEvaluator.exe). Digit 2002 - работает  только с одной встроенной программой - с другими не хочет - так уж устроен.
5. Сакрамент - Рассказчик 3 (TalkerPro) 1 CD SAPI5 . В комплекте 2 голоса (+ 1 дополнительный отдельно -или +2 по разным источникам) - Судя по образцам с сайта производителя качество голосов не очень - однако судя по отзывам пользователей немного лучше чем Nicolai. Цена диска на рынке 150 руб. Без диска не работает - диск защищен "StarForce 3.02 protector" - так-что образ диска не создашь. вот и придется как захочешь что-нибудь послушать - вставлять диск, но мне надоело (достало).
6. Сакрамент - Рассказчик 2 (Игорь + Вика=9MB + Юлия=2.5MB) SAPI5- (+ Ольга-5.1Мб / Ирина-4.2Мб / Вячеслав-4.7Мб / Юра-2.2Мб) Sakrament Teller -  что-то улучшено но не очень заметно по сравнению с предыдущими версиями от Сакрамента за исключением разнообразия Мужской/Женский голоса.
7. Сакрамент - Рассказчик 1 (Борис) 6.5MB SAPI5 - Хуже чем Nicolai и Катерина но лучше чем все другие.
8. Иван - Ivan (Tigrix) 1.5MB SAPI4 То-же среднего качества (по моему близко около первого Сакрамента).
9. Magic -Gooddy 2004 (ver: 98->2000->2004) 28MB SAPI4: Старая программа для Windows 98 ->XP - точно не помню но кажется это был словарь вместе с TTS - качество чуть лучше чем L&H 3000. Тоже одна из первых разработок для русского языка.
10. Оратор (Orator) 4.5MB- сам не тестировал но судя по образцам до Nicolai далеко.
11. Speaking Mouse 3MB - то-же что и ниже но немного по-лучше.
12. L&H 3000 (Lernout & Hauspie) SAPI4  (мужской и женский голос) 3MB - Что-то слабо похожее на русскую речь.
 
Итого - 22 (или 24 по разным источникам) возможных голосов на Русском языке.
 
В общем я лично пока рекомендую (из общедоступных) только 4 голоса:
 
  1)  Acapela-Group Алёна 22Khz - SAPI5/SAPI4
  2)  Loquendo Ольга / Loquendo Дмитри
  3)  Nicolai (v5.1 - лучше чем 4.2 так как говорят что исправлены многие ошибки в том числе слежение за текстом и соответствие анимации движения губ в приложениях использующих визуальных агентов для сопровождения речи) и
  4)  Katerina  
 (остальные пока слушать трудно - в следствии более низкого качества) но стоит упомянуть об их болезнях:
 
  Многие считают что: Nicolai - голос выразительного дауна (или выразительного робота). Katerina - истерическая алкоголичка (или алкоголическая истеричка) в следствии её интонаций. (Все выражения и оценки взяты из других форумов).
 
  5) - как опция Сакрамент - Рассказчик 3 - но проблема с диском.
 
Ну а программы для их использования - это дело вкуса и отдельный разговор.
 
По поводу других языков - из самых известных производителей можно отметить достижения следующих разработчиков:
 
Loquendo :: Cepstral :: Acapela Group (Former Elan Speech / Babel) :: Nuance RealSpeak :: AT&T Natural Voices :: NeoSpeech VoiceText (Kate (230MB) / Paul (230MB))
 
+ Bonus: Acapela Group 30-Day Trial (Arabic (Salma / Nawfal) / 25 голосов)

Движки для распознавания речи (SR):

  • Горыныч :: Диктограф
     
    Внимание! Обсуждение движков для распознавания речи ведем в этой теме.

    Дополнительные экранные персонажи:

  • Microsoft Agent Ring :: Zero2000 :: MyDevotion :: DesktopMates
  • Microsoft Agent Character Editor + руководство по использованию

    Программы для чтения текста голосом (говорилки):

  • DeskBot (рекомендуется версия mini) - полное использование всех наворотов технологий Microsoft Agent и Text-to-Speech: анимированные персонажи, чтение текстовых файлов, документов MS Office и буфера обмена через SAPI 4.0, напоминание времени, звуковые эффекты - реверберация, шепот и др., всего 1 Мб.

  • Всего записей: 747 | Зарегистр. 10-11-2005 | Отправлено: 19:57 13-10-2006 | Исправлено: vadim1275, 15:07 30-04-2019
    MaxMIsaev

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    "   Вниманию уважаемой публики представляется новая Text To Speech программа RussAcc фирмы BZ Soft. Она предназначена для озвучивания текстов, создания аудиокниг (в формате wav, mp3, amr, vmo), расстановки ударений в русских текстах (отсюда и ее название - сокращенное Russian Accents).
       Это только первая версия, но уже сейчас по довольно многим параметрам она превосходит программы, существующие годами (каждую в своем).
       Некоторые программы во время озвучивания текстов, только выделяют (т.е. даже и не цветом) текущий читаемый абзац целиком. RussAcc выделяет цветом текст текущего предложения, в зарегистрированной версии можно установить и цвет фона подсветки читаемого фрагмента. Также некоторые программы выделяют каждый раз нижний абзац и для каждого нового абзаца перемещают весь текст вверх; когда абзацы маленькие, то текст часто "дергается". RussAcc же проходит по странице сверху донизу и только после этого перелистывает ее.
       Для mp3 в режиме VBR можно указать минимальный и максимальный битрейты, а также качество VBR. Для AMR можно выбирать из 8 значений битрейта. Для создания AMR из WAV RussAcc не использует промежуточные форматы.
       В конце записи, если количество файлов-блоков больше одного, создается список файлов в формате m3u.
       Многие программы используют для определения верного ударения текстовые правила типа "освобождени*=освобожде<ни". RussAcc же в своей базе для каждого слова имеет все его формы с их грамматическими параметрами и ударениями (всего более 3 миллионов форм). Для слов с неоднозначным ударением он рассматривает какие слова стоят рядом и какие у них грамматические параметры и на этой основе делает выбор.
       По скорости автоматической расстановки ударений RussAcc обгоняет ближайшего конкурента, использующего грамматические параметры, почти на порядок (для обработки мегабайта текста требуется всего несколько секунд).
       Кроме режима автоматической расстановки ударений в программе RussAcc есть режим расстановки с подтверждением. В этом режиме программа предоставляет пользователю возможность скорректировать ударения для слов с неоднозначным ударением. Коррекция производится кликом мыши на выбранной гласной слова - быстро и удобно. С помощью этого режима RussAcc позволяет добиться почти идеального качества расстановки ударений, по-видимому, недоступного ни для каких других программ при таких относительно небольших временных затратах (при больших можно и в блокноте).
       RussAcc обладает современным визуальным интерфейсом, используются окна-лотки с режимом Auto Hide (Автоскрытие), 32-битные иконки, XP-шные темы оформления.
       В диалоге записи указывается сколько прошло времени и сколько примерно осталось, указываются не только минуты, но и секунды.
       RussAcc работает и с Алёной и с Николаем и с другими движками, но рекомендуем, конечно, Николая. (Этому выбору, между Алёной и Николаем, в файле справки посвящен целый раздел.)
     
       Налетай, торопись, покупай звукопись! (Предварительно скачав).
       http://bzsoft.spb.ru/russacc.html "

    Всего записей: 16 | Зарегистр. 16-03-2009 | Отправлено: 13:06 16-03-2009
    Gideon Vi

    Gold Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    MaxMIsaev, зачем экзешник в хлам убивать? Тот же DrWeb с ума сойдёт, пока такое проверять будет.

    Всего записей: 8082 | Зарегистр. 02-02-2004 | Отправлено: 10:53 17-03-2009
    Trost

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Кстати, автоматическая расстановка ударений в RussAcc на порядок лучше чем в MP3Book. Пробовал с Николаем. Еще бы туда авторы пользовательский словарь ударений добавили - была бы реальная конкуренция для MP3Book. И по цене вполне приемлимый продукт.

    Всего записей: 120 | Зарегистр. 06-06-2003 | Отправлено: 15:36 17-03-2009
    MaxMIsaev

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
      Уважаемому глубокому космосу (судя по количеству сообщений) представляется версия 1.0.1 программы RussAcc.
       Улучшен алгоритм сохранения параметров окна при выходе из программы. Произведены некоторые изменения, связанные с фокусом (выбором) окон после закрытия окон-лотков. С этой версии RussAcc помнит текстовую позицию для 50 последних файлов. В меню "Файл" к имеющимся недавним файлам добавлен пункт "Недавние папки" (до 16 штук).
       Неужели участники такого форума не попробовали программу с самыми разными движками? Не могли бы форумчане, если таковые имеются, поделиться информацией, с какими движками, в каких режимах использовали RussAcc, есть ли замечания, все ли работает. А то ощущение, что это скринсэйвер, изображающий форум, и одновременно напоминает затишье перед... акцией по дискредитации.
       Автор первого вопроса, наверное сам знает ответ на него, но это не самая мощная защита программ, какая бывает. Автору второго сообщения спасибо за положительную оценку RussAcc и за упоминание о тестировании с Николаем. Правда в этом сообщении есть несколько поводов для вопросов. Упомянем только, что, например, по маленькому скриншоту на странице программы видно наличие словаря (кнопка "... для всех текстов, т.е. в словарь"), написано о нем и в справочной системе.
     
    http://bzsoft.spb.ru/russacc.html

    Всего записей: 16 | Зарегистр. 16-03-2009 | Отправлено: 13:03 22-03-2009
    7615790



    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Приветствую MaxMIsaev
    Думаю "....затишья перед... акцией по дискредитации." в ближайшее время не планируется, потому что Ваша программа (кстати, очень даже не плохая!) пока "не раскручена" т.е. никто о ней не знает, поэтому делайте выводы.  
    Теперь по софту:
     - Обнаружил старую "болячку" все аналогичных програм - это произношение "е" и "ё" а если точнее то слов "все" и "всё".  
     
     - Так и не нашел всех  "наворотов", описанных в Help к программе RussAcc (.......Или, например, в RussAcc могут использоваться правила типа "если в радиусе n слов от слова "стоит" находится слово, основная форма которого имеется в списке денежных единиц (рубль, копейка, грош и т.п.), то более вероятно ударение "сто<ит", чем "стои<т".  
     
    - на мой взляд, удобней было бы, если "скорректированный" файл (там где программа проставила ударения, появлялся сразу в рабочем окне программы, т.к. заново открывать файл dig_ххххххх.txt не совсем удобно. (не смертельно, но, не удобно!!
     
    И на последок! К сожалению почувствовать всю мощь вашего детища проблематично, по одной простой причине, когда урезано половину функций, то и отзывов вы получите ровно на столько, на сколько дали попробовать программу. Триальная версия (по времени, но полнофунционал) дала бы вам больше отзывов о всех проблемках и усовершенствованиях, связанных с вашей программой.
    А так программа очень даже ничего. Особенно радует, что автор пошел по единственно правильному пути - не раздувать пользовательский словарь, а формировать правила чтения! С удовольствием буду следить за Вашим развитием!
     

    Всего записей: 22 | Зарегистр. 10-11-2007 | Отправлено: 14:40 22-03-2009
    sdkeeper

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Нет никакого интереса тестировать программу, которой в дальнейшем не будешь пользоваться.
    А пользоваться не буду по причине платности программного продукта. По тем же причинам не пользуюсь существующей уже давно MP3book2005.
    KoobAudio, Balabolka и Demagog - мой выбор. 8)

    Всего записей: 9 | Зарегистр. 18-07-2008 | Отправлено: 17:02 24-03-2009
    Wasil

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Полностью поддерживаю sdkeeper. Да  и словарь в Balabolka с ударениями ставится неплохо. Практически процентов на 90% Алена правильно читает текст.

    Всего записей: 11 | Зарегистр. 18-07-2006 | Отправлено: 17:50 25-03-2009
    Speechpro

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Приветствую All!
     
    Центр речевых технологий заканчивает проект по созданию синтеза естественной русской речи и выводит на рынок новый продукт "Живой голос". На сегодняшний день существует два голоса Александр и Мария. К концу лета голосов будет 8. 4 мужских и 4 женских.
    Описание и примеры звучания можно прослушать здесь:
    http://speechpro.ru/rus/company/tech/vital-voice/
     
    Вопросы и конструктивная критика приветствуются

    Всего записей: 2 | Зарегистр. 01-04-2009 | Отправлено: 14:56 01-04-2009 | Исправлено: Speechpro, 14:58 01-04-2009
    maK



    Gold Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    примеры звучания можно прослушать здесь

     
    нет там никаких "примеров звучания"

    Всего записей: 5640 | Зарегистр. 19-12-2003 | Отправлено: 19:37 01-04-2009
    pisid

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    мак, есть они там, там кнопками между обзацами.  
    Движок очень даже не плох!

    Всего записей: 29 | Зарегистр. 06-06-2008 | Отправлено: 02:32 02-04-2009
    maK



    Gold Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    pisid
     
    Блокировка флэша была включена ) Другой вопрос: как этим добром разжиться?

    Всего записей: 5640 | Зарегистр. 19-12-2003 | Отправлено: 06:44 02-04-2009 | Исправлено: maK, 14:10 02-04-2009
    SelenaNight



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Слабенькие пока эти Александр и Мария

    Всего записей: 335 | Зарегистр. 27-02-2006 | Отправлено: 08:13 02-04-2009
    dimzdrec33



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    SelenaNight
     
    Категорически не согласен. По крайней мере тот текст, который они читают, лучше бы не прочитал ни один из существующих аналогов.
     
    Единственное, это вопрос как обстоит дело со скоростью чтения? (могут ли они читать быстрее) Потому что такое неторопливое и плавное чтение конечно очень красиво, но вот для чтения книг оно не подойдет из за своей медлительности, и еще хотелось бы иметь возможность прослушать произвольный текст.

    Всего записей: 1238 | Зарегистр. 20-07-2005 | Отправлено: 12:04 02-04-2009
    SelenaNight



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    dimzdrec33
    Особо не отличаются ни от Ольги, ни от Алены.
    И так же "приквакивают", как и они, а интонации и того хуже.
    Если цитировать выше приведенный сайт, то "естественность голоса на уровне плавности звучания и интонации" до сих пор лучше всего у Коли

    Всего записей: 335 | Зарегистр. 27-02-2006 | Отправлено: 14:50 02-04-2009 | Исправлено: SelenaNight, 15:44 02-04-2009
    maK



    Gold Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    "естественность голоса на уровне плавности звучания и интонации" до сих пор лучше всего у Коли

     
    сегодня уже не 1-е апреля ))

    Всего записей: 5640 | Зарегистр. 19-12-2003 | Отправлено: 16:05 02-04-2009
    Ajaja

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    SelenaNight

    Цитата:
    Особо не отличаются ни от Ольги, ни от Алены.

    Для меня это похвала Хотя сам считаю, что до Алены голоса не дотягивают, но это субъективная оценка.  В любом случае, голоса звучат очень достойно. ЦРТ - молодцы.
     
    dimzdrec33

    Цитата:
    Единственное, это вопрос как обстоит дело со скоростью чтения? (могут ли они читать быстрее) Потому что такое неторопливое и плавное чтение конечно очень красиво, но вот для чтения книг оно не подойдет из за своей медлительности, и еще хотелось бы иметь возможность прослушать произвольный текст.

    +1  
    Вопрос скорости тоже очень интересует.

    Всего записей: 1032 | Зарегистр. 17-06-2004 | Отправлено: 19:28 02-04-2009 | Исправлено: Ajaja, 19:39 02-04-2009
    SelenaNight



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    maK
    Какие шутки?
    Разумеется "человечности" у Коли никакой, явный андроид. Ударять его нужно учить, и во многих случаях невозможно откорректировать произношение слов (например, слово в кавычках в его словарь исключения не добавить).
    Но я писала о "плавности звучания и интонациях". Здесь ему конкурентов нет.
    Синтезаторы слушаю много и давно очень. И Катю, и Алену, и Ольгу поставила (пробовала и все, что встречалось ранее), но комфортно слушать можно только Колю. Кстати, его интонации на уровне неплохого живого чтеца (аудио-книги тоже слушаю в большом количестве, есть с чем сравнить).

    Всего записей: 335 | Зарегистр. 27-02-2006 | Отправлено: 19:28 02-04-2009
    maK



    Gold Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    его интонации на уровне неплохого живого чтеца

     
    ... да, что б я так жил! ))))) Если Коля неплохой чтец, тогда я - китайский император ))  

    Всего записей: 5640 | Зарегистр. 19-12-2003 | Отправлено: 00:33 03-04-2009
    dimzdrec33



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    SelenaNight
     
    На вкус и цвет как говорится...но это уже слишком мне кажется. Какая естественность и человеческие интонации в голосе робота? Насчет "квакания" я еще соглашусь, но все остальное просто ерунда....явные придирки...слишком велика привычка к Коле судя по всему. Если слушать его постоянно, то вероятно происходит привыкание и центры в мозгу отвечающие за восприятие синтеза речи просто перестраиваются таким образом, что нормально вопринимают только речь роботов

    Всего записей: 1238 | Зарегистр. 20-07-2005 | Отправлено: 03:00 03-04-2009
    Stroodder



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

     Приятно, что кто-то что-то делает на почве TTS стремясь к качеству.
     
    1. Битрейт маловат на слух, верхов тоже не хватает ("гУлко") - это примеры пожали или так оно и есть?
    2. Интонация рандомная, ощущение, что исходный аудоматериал писался на реальном тексте и близкие соседи звучат неплохо, а вперемежку интонация скачет и атака не к месту практически в каждом предложении. Где начинаются и заканчиваются синтагмы приходится додумывать самому, короче говоря к голосу нужно привыкать, как и ко всем движкам.
    3. Зависимость изменения интонации от знаков препинания выражена слабо, а точнее практически никак. По крайней мере в примерах.
     
     Говоря проще на автодиспетчера АТС потянет
     
     З.Ы. Надеюсь разработчики не забудут привинтить стандартный знак указания ударений )))

    Всего записей: 666 | Зарегистр. 21-10-2004 | Отправлено: 07:56 03-04-2009
    Открыть новую тему     Написать ответ в эту тему

    Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

    Компьютерный форум Ru.Board » Компьютеры » Программы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)


    Реклама на форуме Ru.Board.

    Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
    Modified by Ru.B0ard
    © Ru.B0ard 2000-2024

    BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

    Рейтинг.ru