Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » SDL Trados Studio

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46

Открыть новую тему     Написать ответ в эту тему

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Тема в разделе «Варезник»

 

 
Trados Studio — это комплексное решение для организации коллективной работы переводчиков. Продукт предоставляет широкий набор инструментов для создания единой среды редактирования, реферирования, работы с терминами и централизованного управления проектами. Trados Studio базируется на технологии Translation Memory — сохранение в базе часто встречающихся предложений, что избавляет от необходимости однотипных переводов. В числе преимуществ Trados Studio — открытость платформы и инновационные функции, благодаря чему можно значительно оптимизировать процесс переводов, экономя время и средства.
 
Текущая версия: Trados Studio 2022
 
Что нового в последней версии программы?

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 02:12 20-11-2003 | Исправлено: Komandor, 19:43 14-12-2022
lion9

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Ну чтобы совсем удостовериться, что правильно понимаю - сегмент это ровно одно предложение. Нельзя указать устойчивое словосочетание или абзац, состоящий из двух-трех предложений?

 
Правила сегментирования задаются в памяти переводов, и тоже регулярками. Можно сегментировать по параграфам, можно - по предложениям. Иногда приходится исправлять ошибки сегментирования, типа «See para. 14 below» и «See paras. 14-18 below» по умолчанию разбивает на два сегмента «See para.» и «14 below», считая «para.» или paras. концом предложения. Поэтому в правила сегментирования приходится добавлять исключение типа:
 
Before break:
par.{1,2}\.+
 
After break:
 
\s\d+
 
Разумеется, для художественных текстов память перевода не очень пригодна, повторений не будет. Но вот двуязычный текст всё равно иметь имеет смысл, хотя бы в плане проверки терминологии в QA Checker типа Verifika.  
 

Всего записей: 142 | Зарегистр. 21-12-2006 | Отправлено: 05:03 29-12-2013 | Исправлено: lion9, 05:06 29-12-2013
XPerformer



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Это я к тому, что, например, гугл-переводчик вероятно работает по другому алгоритму. Он обучается, это заметно - год от года переводит лучше, но падежи обрабатывает и уникальные тексты худо-бедно переводит.

Всего записей: 2536 | Зарегистр. 20-06-2011 | Отправлено: 05:05 29-12-2013
lion9

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Это я к тому, что, например, гугл-переводчик вероятно работает по другому алгоритму.

 
Память перевода и автоматизированный переводчик (машинный перевод) - совершенно разные вещи. Память перевода ничего не переводит сама - она лишь предлагает процентные совпадения из ранее переведённых сегментов.

Всего записей: 142 | Зарегистр. 21-12-2006 | Отправлено: 05:08 29-12-2013 | Исправлено: lion9, 05:12 29-12-2013
XPerformer



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Возвращаясь к указанной вами связке

Цитата:
Микс из Trados Studio 2014 с Multitrerm + Multitern Extract + TermInjector + QTranslate + проверка Common и Terminology в Verifika

вы в своей работе не используете автоматический переводчик?

Всего записей: 2536 | Зарегистр. 20-06-2011 | Отправлено: 05:14 29-12-2013
Xoanon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Это я к тому, что, например, гугл-переводчик вероятно работает по другому алгоритму. Он обучается, это заметно - год от года переводит лучше, но падежи обрабатывает и уникальные тексты худо-бедно переводит.

 
Да, гугл-переводчик работает на базе машинного обучения на огромных объемах параллельных текстов, с которых собираются вероятности перехода слов исходного языка в слова целевого языка с учётом контекста до пяти слов слева и справа (возможно, контекст расширили с тех пор), а также с учётом штрафов за вставку/удаление/перестановку слов. Также используется языковая модель целевого языка. А также прикручиваются и другие навороты, и оптимизации (как например, мемоизация фрагментов, наиболее часто отправляемых пользователями на перевод).
 
Почитайте про статиcтические модели перевода номер 1 и номер 2 от IBM, если хотите вникнуть в тему:
http://www.cs.columbia.edu/~cs4705/notes/ibm12.pdf
 
Качество гугл-переводчика растет год от года, так как растет объем, качество и охват тематики параллельных текстов, плюс алгоритм улучшается засчет новых идей. Самое интересное, что гугл-переводчик мог бы переводить еще лучше, но это было бы слишком ресурсоёмко для бесплатного сервиса, которым пользуются миллионы людей.

Всего записей: 602 | Зарегистр. 23-04-2004 | Отправлено: 10:44 29-12-2013 | Исправлено: Xoanon, 10:44 29-12-2013
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
XPerformer

Цитата:
Получается, что память переводов хороша для технических текстов, таких как компьютерные инструкции или тексты договоров, где много повторяющихся фрагментов.  

У меня достаточно большой опыт работы в SDL Trados, а сейчас перевожу один из диалогов Платона. И вот ни разу не повернулась мысль воспользоваться Традосом
Для нетехнических текстов он не просто бесполезен, но вреден.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 11:08 29-12-2013 | Исправлено: ghosty, 11:09 29-12-2013
lion9

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
вы в своей работе не используете автоматический переводчик?  

 
Для не локализованных TermInjector участков использую Qtranslate (автоматический перевод Google), с последующей корректурой предложенного варианта.
 
Добавлено:

Цитата:
Для нетехнических текстов он не просто бесполезен, но вреден.

 
Полезен даже для художественных, при сохранённом Source удобно вычитывать окончательный вариант перевода.
 
Далее, для примера беру Апологию Сократа:
 
«о мужи афиняне» - выражение повторяется по всему тексту, такое имеет смысл включить в TermInjector и не перепечатывать каждый раз.  
В тексте много имён, в которых легко опечататься. Имея на руках двуязычных SDLXLIFF и загнав правильное написание имён в терминологический словарь Verifika, легко сверить, нет ли ошибок.

Всего записей: 142 | Зарегистр. 21-12-2006 | Отправлено: 11:47 29-12-2013
XPerformer



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Xoanon
Спасибо, вы одним постом выдали такое количество информации
(Поверхностные поиски в интернете к успеху не привели, в основном вода)

Цитата:
вероятности перехода слов исходного языка в слова целевого языка с учётом контекста до пяти слов слева и справа (возможно, контекст расширили с тех пор)

так и думал, что не предложениями, смысла не вижу. Поэтому и удивился, что сегмент - это чаще всего предложение.

Цитата:
Почитайте про статиcтические модели перевода номер 1 и номер 2 от IBM, если хотите вникнуть в тему:  
http://www.cs.columbia.edu/~cs4705/notes/ibm12.pdf

Со статьей ознакомлюсь, благодарю.

Цитата:
Качество гугл-переводчика растет год от года, так как растет объем, качество и охват тематики параллельных текстов, плюс алгоритм улучшается засчет новых идей. Самое интересное, что гугл-переводчик мог бы переводить еще лучше, но это было бы слишком ресурсоёмко для бесплатного сервиса, которым пользуются миллионы людей.

Тоже интересный вопрос - реально ли развернуть эту систему на одной машине? понятно, что смысла нет, так система должна обучаться, но меня интересуют скорее технические характеристики базы - насколько велика должна быть база для получения перевода приемлемого качества. Вы пишите об огромных объемах текста, и комбинаций из 10 слов очень много.
Скажем, база поиска яндекса велика и требует множества серверов, хранится распределенно.
Интересно, как обстоит дело здесь - интуитивно мне кажется, что объем базы должен быть под силу современному компьютеру.
 

Цитата:
Также используется языковая модель целевого языка.

Совсем непонятно, что это - учитывается грамматика языка (порядок слов в предложении и т.п). Или что-то другое? вдруг есть ссылка, где это подробнее написано, буду признателен.
Еще интересный вопрос  - что считать "словом", а что его контекстом? Допустим на входе обычное предложение из 9 слов. Маловероятно, что за "слово" надо брать пятое слово, скорее, подлежащее или подлежащее+сказуемое...
 
 
Добавлено:
ghosty

Цитата:
У меня достаточно большой опыт работы в SDL Trados, а сейчас перевожу один из диалогов Платона. И вот ни разу не повернулась мысль воспользоваться Традосом    
Для нетехнических текстов он не просто бесполезен, но вреден.

Вероятно, это зависит от специфики и объема самого текста.
Сделать механические замены тех словосочетаний, которые не имеют оттенков смысла и всегда переводятся одинаково, в любом случае ускоряет процесс перевода.  
Подумалось, что если гугл-переводчик долго обучать только на произведениях поэтических форм, в результате перевода будут получаться стихи. А вот память перевода вряд ли даст такой эффект. Хотя может и ошибаюсь...
 
Добавлено:
lion9

Цитата:
Для не локализованных TermInjector участков использую Qtranslate (автоматический перевод Google), с последующей корректурой предложенного варианта.

а я решил, что Qtranslate используете как словарь.
Интересна "кухня" профессионального переводчика, спасибо, что делитесь.
Скажите, а словари в работе используете? такие как Lingvo или бумажные?
Все-таки не понял какова последовательность обработки:
сначала память переводов + TermInjector, а потом если надо  Qtranslate, потом ручная доводка?
 
Добавлено:
Xoanon
Похоже, вы хорошо разбираетесь в этой теме. Не подскажите, есть ли ощутимая разница в качестве разных авто-переводчиков? когда-то начал использовать гугл-переводчик, так и продолжаю. Babylon как-то не прижился. Есть смысл пробовать другие - яндекс, microsoft... в случаях, когда гугл не справился?

Всего записей: 2536 | Зарегистр. 20-06-2011 | Отправлено: 18:18 29-12-2013 | Исправлено: XPerformer, 18:55 29-12-2013
lion9

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
а я решил, что Qtranslate используете как словарь.  
Интересна "кухня" профессионального переводчика, спасибо, что делитесь.  
Скажите, а словари в работе используете? такие как Lingvo или бумажные?  
Все-таки не понял какова последовательность обработки:  
сначала память переводов + TermInjector, а потом если надо  Qtranslate, потом ручная доводка?

 
Именно так, всё правильно поняли насчёт последовательности. Только перед этим ещё Multiterm Extract. Словарь основной - сайт www.multitran.ru , Википедия, профильные сайты по тематике перевода, если перевод на английский - проверка употребительности терминологии путём введения её в кавычках в поиск Google, чтобы вывел именно такие фразы, if any, и контекстная сверка термина-кандидата с текстами на профильных сайтах носителей языка.
 

Всего записей: 142 | Зарегистр. 21-12-2006 | Отправлено: 21:12 29-12-2013 | Исправлено: lion9, 21:20 29-12-2013
Xoanon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Тоже интересный вопрос - реально ли развернуть эту систему на одной машине? понятно, что смысла нет, так система должна обучаться, но меня интересуют скорее технические характеристики базы - насколько велика должна быть база для получения перевода приемлемого качества. Вы пишите об огромных объемах текста, и комбинаций из 10 слов очень много.  
Скажем, база поиска яндекса велика и требует множества серверов, хранится распределенно.  
Интересно, как обстоит дело здесь - интуитивно мне кажется, что объем базы должен быть под силу современному компьютеру.  

 
Всё зависит от требуемой скорости, качества и жанрового охвата. Если вы хотите качество Гугла в любом жанре - вам одной машиной не обойтись.
 

Цитата:
Совсем непонятно, что это - учитывается грамматика языка (порядок слов в предложении и т.п).

Языковая модель целевого языка - это статистическая модель языка, которая отвечает на вопрос, какая последовательность слов более вероятная в целевом языке. Например, русское слово "большой" на английский может переводиться "large" или "high", к примеру, и просто вероятности перевода даже с учетом контекста не гарантируют вам правильного выбора между этими двумя переводами прилагательного. Тут вступает в действие языковая модель целевого языка, которая, если вы, например, переводите фразу "большой объём данных" и "большой спрос", вам скажет, что вероятность существования комбинации слов "large volume of data" равна столько-то и она больше, чем "high volume of data", и аналогично, "high demand" более вероятно в целевом языке чем "large demand".  
 
Языковая модель строится на основе большого количества текстов одного языка (http://en.wikipedia.org/wiki/Language_model). Из тектов собирается распределение вероятностей комбинаторики на базе униграммов (одного слова), биграммов (двоек слов), триграммов (трое слов), квадриграммов (четверок слов), пентаграммов (пятёрок слов) и т.д. с использованием различных методов сглаживания, свойства Маркова, методов отхода.
 
Поэтому от модели перевода берутся всегда много вариантов перевода, которые "просеиваются" через языковую модель. При помощи языковой модели решаются и многие грамматические вещи, например, падежи в русском. Для перевода фразы "buy a cow" берется множество комбинаций от модели перевода от наиболее вероятных к менее {купить, приобрести, надыбать, ...} {корова, корову, коровой, корове} и из них само собой языковая модель наиболее вероятным выберет винительный падеж.
 

Цитата:
Еще интересный вопрос  - что считать "словом", а что его контекстом? Допустим на входе обычное предложение из 9 слов. Маловероятно, что за "слово" надо брать пятое слово, скорее, подлежащее или подлежащее+сказуемое...  

Надеюсь, с учетом вышеописанного вам теперь понятно, что Гугл использует только слово, так как он пользуется чисто статистическим подходом машинного перевода. И сила статистического подхода в том, что не нужно вникать в грамматический анализ, а нужно лишь наращивать объем тренировочных данных и увеличивать контекст. Т.е. грубо говоря, можно брать силой, а не умом. Есть и более "умные" подходы с грамматическим анализом и синтезом, но разработка и поддерждание/улучшение системы более ресурсоёмко с точки зрения человеческих ресурсов, поэтому большинство предпочитает статистический метод, который в основном пожирает данные и сервера. Самая мощь получилась бы, если бы гугл наложил статистику еще и поверх грамматики, но он не хочет тратиться на бесплатный сервис для миллионов пользователей.
 

Цитата:
Похоже, вы хорошо разбираетесь в этой теме. Не подскажите, есть ли ощутимая разница в качестве разных авто-переводчиков? когда-то начал использовать гугл-переводчик, так и продолжаю. Babylon как-то не прижился. Есть смысл пробовать другие - яндекс, microsoft... в случаях, когда гугл не справился?

Можете пробовать, нельзя сказать огулом, что одни лучше, другие хуже, они разные, так как они обучаются на разных массивах параллельных и одноязычных текстах, тексты у них по-разному сбалансированы. Чтобы сказать точно, есть специальные метрики качества машинного перевода NIST/BLEU и др., но вы должны взять случайную выборку текстов разных жанров прогнать через все эти системы, рассчитать NIST/BLEU и тогда можно будет сказать что-то объективно. Но для конечного пользователя - это все равно сказки, ему важен перевод конкретного абзаца. А один такой абзац может будет лучше, другой хуже. Но вы и сами можете выбрать, исходя из сравнения, что вам больше нравится, как переводит.
 
В любом случае, машинный перевод пока имеет основную цель дать понять, о чем текст на другом языке, донести информацию на иностранном языке, а не заменить профессионального переводчика-человека.

Всего записей: 602 | Зарегистр. 23-04-2004 | Отправлено: 21:43 29-12-2013 | Исправлено: Xoanon, 22:25 29-12-2013
XPerformer



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Xoanon
 

Цитата:
Поэтому от модели перевода берутся всегда много вариантов перевода, которые "просеиваются" через языковую модель. При помощи языковой модели решаются и многие грамматические вещи, например, падежи в русском. Для перевода фразы "buy a cow" берется множество комбинаций от модели перевода от наиболее вероятных к менее {купить, приобрести, надыбать, ...} {корова, корову, коровой, корове} и из них само собой языковая модель наиболее вероятным выберет винительный падеж.

Можно ли сказать, что человек строит фразу по тому же принципу?
Родители в детстве формируют языковую модель, исправляя ошибки. Затем накапливается статистика - чем больше человек общается и читает, тем грамотнее речь.
Если да - получается, что мозг (и особенно мозг профессионального переводчика) хранит весь этот объем информации, который пока не под силу хранить и обрабатывать современному компьютеру (в количестве 1 шт).
 
Добавлено:

Цитата:
лишь наращивать объем тренировочных данных и увеличивать контекст.  

Допустим, вычислительные мощности позволяют резко увеличить контекст - до 20-50 слов.
Разве это повысит качество перевода?
новый абзац обычно означает начало новой мысли, и мне кажется, там может быть другой набор слов для выражения этой мысли, которые только исказят контекст.
Разве не лучше ввести какой-то параметр типа "тональности" всего текста, который можно посчитать достаточно быстро для 50-100 страниц, и найти похожий текст в базе по этому параметру, и брать вероятности по этому тексту? В этом случае перевод может быть даже лучше оригинала, если в базе тексты высокого качества и слова подобраны точнее для этой предметной области.
То есть мой вопрос в том, есть ли смысл "тупо" расширять контекст больше 10-15 слов, дает ли это рост качества?

Всего записей: 2536 | Зарегистр. 20-06-2011 | Отправлено: 21:53 29-12-2013 | Исправлено: XPerformer, 22:10 29-12-2013
Xoanon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Можно ли сказать, что человек строит фразу по тому же принципу?  
Родители в детстве формируют языковую модель, исправляя ошибки. Затем накапливается статистика - чем больше человек общается и читает, тем грамотнее речь.  
Если да - получается, что мозг (и особенно мозг профессионального переводчика) хранит весь этот объем информации, который пока не под силу хранить и обрабатывать современному компьютеру (в количестве 1 шт).  

 
Нет, в том то и отличие, что человеческий мозг хранит языковую модель на другом принципе - на принципе обощения и аналогии. Т.е. то, что статистический машинный переводчик будет хранить в виде списка состоящего из тысяч-десятков тысяч комбинаторных вариантов, в человечексом мозгу храниться в виде абстрактного правила с сылками на абстрактные категории, лексикон и т.д. Языковая модель статистической модели языка, напротив, должна хранить, например, все комбинации глагола "купить" со всеми его прямыми дополнениями, чтобы иметь возможность правильного выбора падежа. "купить стол", "купить рыбу", "купить приставку" и так до бесконечности... И обощающе-иерархическая человеческая модель работают сразу на любом слове. Например, если вдруг бы появилось слово zzzz в английском, которое переводилось бы новым словом "хрямбля", человек сразу знает из своей обощающе-иерархической модели, что правильно будет "купить хрямблю".
 
Итого, языковая модель в человеческом мозгу представлена в таком компактном виде, которые не удалось воспроизвести на компьютере. И вы должны понимать, что статистический переводчик - это функциональная модель (т.е. та, которая имеет целью только получить аналогичный результат), а не воспроизводящая (т.е. та, которая помимо получения того же результата, полность повторяет принципы работы моделируемого объекта).
 

Цитата:
Допустим, вычислительные мощности позволяют резко увеличить контекст - до 20-50 слов.  
Разве это повысит качество перевода?  

Нет, так как вы забываете о таком понятии, как разреженность данных (data sparsity). Т.е. комбинации с контекстом до пяти слов слева и справа будут в текстах повторятся десятки, сотни, тысячи раз, в то время как почти 100% комбинаций с контекстом 20-50 слов будут встречаться ровно один раз на всём объеме данных, которые доступны в Интернете сейчас, вы просто не представляете, сколько нужно языковых данных, чтобы такой длинный контекст существенно помогал (в миллионы, а то и миллиарды раз больше, чем сейчас есть во всем Интернете).
 
Разреженность языковых данных вы можете проверить на таком простом примере из 5 слов, которые я написал выше прямо в этом посте - "иметь возможность правильного выбора падежа" - поищите её в кавычках (т.е. на полное совпадение) в Гуглу - поиск даст 0 результатов (т.е. до меня еще никто такую комбинацию 5 слов в Интернете не употребил). Более того, вы просто не представляете, сколько вам места понадобится, чтобы хранить весь этот контекст в 20-50 слов, который встретился в каждом уникальном случае один раз. Именно, поэтому наиболее активно исполльзуются модели с комбинаторикой до 3, больше - не имеет особого смысла, так как при огромном количестве данных, которые надо хранить, все статистические мдели не показывают сколько-нибудь значительного прироста качества. Именно поэтому, во всех моделях, и особенно в моделях с более комбинаторикой больше 3 используются методя отступа на порядок (порядки ниже) или же линейная интерполяция всех порядков.
 
Более того, у статистической языковой модели есть такое понятие как способность к обобщению (которое далеко от человесексого обобщения, конечно), - это способность успешно работать на новых данных, на которых она не тренировалась. Так вот исходя из этого параметра ценность контекста 20-50 - стремится к нулю. Так как вероятность того, что комбинация из 20 слов, виденных на тренировочных данных встретится в новом тексте также стремится к нулю.
 

Цитата:
Разве не лучше ввести какой-то параметр типа "тональности" всего текста, который можно посчитать достаточно быстро для 50-100 страниц, и найти похожий текст в базе по этому параметру, и брать вероятности по этому тексту? В этом случае перевод может быть даже лучше оригинала, если в базе тексты высокого качества и слова подобраны точнее для этой предметной области.  

Один текст для статистической модели - это ничто, разреженность данных будет стремиться к бесконечности и способность модели к обобщению будет стремиться к нулю.  
 
Кстати, некоторые системы машинного перевода практикуют принцип памяти перевода из того же Trados - если текст/абзац целиком найден в параллельных текстах - выдается его перевод оттуда.

Всего записей: 602 | Зарегистр. 23-04-2004 | Отправлено: 23:28 29-12-2013 | Исправлено: Xoanon, 23:29 29-12-2013
XPerformer



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Xoanon
 

Цитата:
Один текст для статистической модели - это ничто, разреженность данных будет стремиться к бесконечности и способность модели к обобщению будет стремиться к нулю.  

Поясню свою мысль. Речь веду только о технических текстах, понятно, что для художественных это не сработает.
Возьмем инструкции для программного обеспечения. Они содержат большое число повторяющихся фрагментов, и никого не смущают эти повторы. Здесь гораздо важнее донести смысл, чем разнообразие форм.
Как поступает обычно человек, когда ему нужно составить первый раз такую инструкцию? Изучает или вспоминает как написаны лучшие образцы этого жанра. [как офтопик могу заметить, что художники, музыканты тоже обучаются по этому принципу - просматривают много достойных произведений, вырабатывают вкус и т.д.]
Далее, инструкции для конечного пользователя и инструкции для программиста отличаются своей стилистикой, одни и те же слова могут употребляться в разных значениях, так как программист обладает большей квалификацией. Можно вручную рассортировать готовые инструкции по этому признаку, проставить какие-то баллы, которые я выше условно назвал "тональностью".
Если тексты на входе классифицировать по этому признаку, пусть даже вручную, и затем для перевода использовать только то подмножество параллельных текстов в базе, которое совпадает по этому признаку, это должно повысить качество перевода, и даже "причесать" исходный текст, если он был написан коряво.
 
Можно наблюдать как улучшается качество машинного перевода MSDN, думаю, они учитывают специфику переводимых текстов.
Добавлено. Резюме - на разных группах текстов вероятности одних и тех же словосочетаний будут получаться разные, поэтому имеет смысл сначала определить принадлежность текста к определенной группе, и использовать статистику только этой группы.  
 

Цитата:
Нет, в том то и отличие, что человеческий мозг хранит языковую модель на другом принципе  

очень интересно. Получается, алгоритмы нейронных сетей и другие из этой области в машинном переводе не используются?

Всего записей: 2536 | Зарегистр. 20-06-2011 | Отправлено: 23:48 29-12-2013 | Исправлено: XPerformer, 00:25 30-12-2013
Xoanon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Поясню свою мысль. Речь веду только о технических текстах, понятно, что для художественных это не сработает.  
Возьмем инструкции для программного обеспечения. Они содержат большое число повторяющихся фрагментов, и никого не смущают эти повторы. Здесь гораздо важнее донести смысл, чем разнообразие форм.  
Как поступает обычно человек, когда ему нужно составить первый раз такую инструкцию? Изучает или вспоминает как написаны лучшие образцы этого жанра. [как офтопик могу заметить, что художники, музыканты тоже обучаются по этому принципу - просматривают много достойных произведений, вырабатывают вкус и т.д.]  
Далее, инструкции для конечного пользователя и инструкции для программиста отличаются своей стилистикой, одни и те же слова могут употребляться в разных значениях, так как программист обладает большей квалификацией. Можно вручную рассортировать готовые инструкции по этому признаку, проставить какие-то баллы, которые я выше условно назвал "тональностью".  
Если тексты на входе классифицировать по этому признаку, пусть даже вручную, и затем для перевода использовать только то подмножество параллельных текстов в базе, которое совпадает по этому признаку, это должно повысить качество перевода, и даже "причесать" исходный текст, если он был написан коряво.  

 
То, о чем вы говорите - это подстройка машинного переводчика под жанр и терминологию интересующего вас текста для перевода. Уже сейчас существуют коммерческие продукты, которые предоставляют вам инфрастурктуру для подтаривамемого под вас машинного переводчика (например, http://www.kantanmt.com/). Т.е. вы можете скормить интересующие вас параллельные тексты, а потом переводить ваши инструкции, и не надо никакого расчета "тональности" и ручного разбора, нужно много хороших паралелльных и одноязыяных текстов того жанра и терминологии, которые вас интересуют. Но обратите внимание, что сервис облачный, так как ресурсы нужны такие, которые не равны вашему одному компьютеру. Т.е. это к в вопросу о том, что разарбатывать полноценный машинный переводчик для обычного компьютера на базе существующих статистических методов - путь в никуда.
 

Цитата:
Можно наблюдать как улучшается качество машинного перевода MSDN, думаю, они учитывают специфику переводимых текстов.  

Конечно, учитывают, они в основном берут паралелльные и одноязычные тексты из того же MSDN. Причем поиск по паралелльным текстам MSDN доступен любому пользователю (http://www.microsoft.com/language/en-us/Search.aspx), а подписчики MSDN могут их скачать в csv-формате.
 

Цитата:
очень интересно. Получается, алгоритмы нейронных сетей и другие из этой области в машинном переводе не используются?  

А что по-вашему нейронная сеть - действительно воспроизводящая модель нейрона? Можно, наверное, считать и так, но, по-моему, это очень сложная математическая модель (которая занимается подбором магических коэффициентов на тренировочных данных, как и другие методы машинного обучения типа логистической регрессии, но которая благодаря внутренним скрытым состояниям может это делать более изощренно), которая в основном позволяет решать сложные нелинейные классификационные задачи и которая, к тому же, в случае огромного количества входных параметров очень-очень ресурсоёмка в обучении.  
 
Машинный перевод, я думаю, возможно можно сделать на базе нейронных сетей, но они будут настолько гигантскими по количеству входных параметров и их будет несколько десятков на каждую языковую пару, и наверное, еще понадобится куча модулей, которые будут анализировать вход и чтобы кормить нужные входные данные нейронным сетям. А создание модулей анализа входа уже будет само по себе отдельными трудо- и ресурсоёмкими задачами, так что гораздо дешевле ограничиться стаистическими методами машиннного перевода.

Всего записей: 602 | Зарегистр. 23-04-2004 | Отправлено: 00:40 30-12-2013
XPerformer



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Xoanon
спасибо, вы ответили на все мои вопросы. Хотелось понять, какие есть сейчас направления в этой сфере и какие развиваются, а какие нет и почему.

Цитата:
 разарбатывать полноценный машинный переводчик для обычного компьютера на базе существующих статистических методов - путь в никуда.

думаю, если ограничиться переводом инструкций для утюгов и прочей бытовой техники, то вполне уложимся. А это тоже ниша

Цитата:
А что по-вашему нейронная сеть - действительно воспроизводящая модель нейрона?

я вообще не уверен, что модель нейрона соответствует реальному положению вещей. Но поскольку не специалист в этой сфере, спорить не буду.
Тем не менее, с годами я всё более подозрительно отношусь к тому факту, что с таким маленьким объемом оперативки и частотой процессора мы умудряемся разговаривать, ходить, играть на фортепиано и т.д., да еще и выполнять эти вещи параллельно
Хочется понять почему в википедии и книгах можно с такой детализацией прочитать, какие процессы происходят в мозгу, а имитировать их на компьютере мы не можем, даже с учетом лавинообразного роста мощностей и ресурсов последние годы.
 
 
 
Добавлено:
А еще такой вопрос.
Есть ли наработки по улучшению качества текста, исправления стилистических погрешностей и т.п.
Ворд конечно подчеркивает, но часто ошибается, и не делает исправлений автоматически. Но это не его основная функция.
Идея такая - если я быстро пишу какой-то текст и концентрируюсь в первую очередь на том, чтобы ничего не забыть, выстроить структуру документа, не потерять мысль. При этом страдает стилистика - неправильно подобраны слова по оттенку смысла, корявые предложения, пропущены предлоги и т.п.
Можно ли такую правку переложить на плечи компьютера?

Всего записей: 2536 | Зарегистр. 20-06-2011 | Отправлено: 01:01 30-12-2013 | Исправлено: XPerformer, 01:14 30-12-2013
Xoanon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
думаю, если ограничиться переводом инструкций для утюгов и прочей бытовой техники, то вполне уложимся. А это тоже ниша  

Это проблема рынка, если рынок - конечные пользователи, они почти всегда предпочтут бесплатный гугл-переводчик.
 

Цитата:
я вообще не уверен, что модель нейрона соответствует реальному положению вещей. Но поскольку не специалист в этой сфере, спорить не буду.  
Тем не менее, с годами я всё более подозрительно отношусь к тому факту, что с таким маленьким объемом оперативки и частотой процессора мы умудряемся разговаривать, ходить, играть на фортепиано и т.д., да еще и выполнять эти вещи параллельно  
Хочется понять почему в википедии и книгах можно с такой детализацией прочитать, какие процессы происходят в мозгу, а имитировать их на компьютере мы не можем, даже с учетом лавинообразного роста мощностей и ресурсов последние годы.  

 
А смысл в том, что для имитации многих процессов в большинстве случаев выбраны функциональные модели, в то время как вопроизводящие, как правило, очень трудо-, ресурсо- и времязатратны. Так же проблема в том, что язык - сложный объект для моделирования (это и сам язык с его нестрогостью, неоднозначнастями и бесконечностью, и его лексикон, и модель знаний об окружающем мире, и логика, и т.д.). Никто не хочет вкладывать 20-30-50 лет деньги в построение воспроизводящей модели и поддержание соответствующей инфраструктуры. Бизнес есть бизнес
 
Хотя в некоторых сферах и функциональные модели (где объекты моделирования попроще) достаточно успешны, возьмите к примеру беспилотный автомобиль Гугла (http://ru.wikipedia.org/wiki/%D0%91%D0%B5%D1%81%D0%BF%D0%B8%D0%BB%D0%BE%D1%82%D0%BD%D1%8B%D0%B9_%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%BE%D0%B1%D0%B8%D0%BB%D1%8C_Google), где при помощи нвбора сенсоров и программного обеспечения на основе фильтров Калмана (http://ru.wikipedia.org/wiki/%D0%A4%D0%B8%D0%BB%D1%8C%D1%82%D1%80_%D0%9A%D0%B0%D0%BB%D0%BC%D0%B0%D0%BD%D0%B0) получился неплохой самоуправляемый автомобиль.
 

Цитата:
А еще такой вопрос.  
Есть ли наработки по улучшению качества текста, исправления стилистических погрешностей и т.п.  
Ворд конечно подчеркивает, но часто ошибается, и не делает исправлений автоматически. Но это не его основная функция.  
Идея такая - если я быстро пишу какой-то текст и концентрируюсь в первую очередь на том, чтобы ничего не забыть, выстроить структуру документа, не потерять мысль. При этом страдает стилистика - неправильно подобраны слова по оттенку смысла, корявые предложения, пропущены предлоги и т.п.  
Можно ли такую правку переложить на плечи компьютера?

Если такое было, это уже бы было достижение века Можно, конечно, сделать что-то на основе языковой модели, но это будет далеко от того чуда, которое вам бы хотелось иметь.

Всего записей: 602 | Зарегистр. 23-04-2004 | Отправлено: 03:22 30-12-2013 | Исправлено: Xoanon, 03:25 30-12-2013
XPerformer



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Если такое было, это уже бы было достижение века

Ну, теперь знаю, чем заняться на пенсии
 
 
 
Добавлено:

Цитата:
А смысл в том, что для имитации многих процессов в большинстве случаев выбраны функциональные модели, в то время как вопроизводящие, как правило, очень трудо-, ресурсо- и времязатратны.  

 
Неужели никто не работает над тем, чтобы выяснить почему?
ведь понимание этого x-фактора, который позволяет мозгу превосходить компьютер, одним махом решит множество задач, для которых функциональный подход работает пока недостаточно хорошо.

Всего записей: 2536 | Зарегистр. 20-06-2011 | Отправлено: 03:39 30-12-2013
Xoanon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Ну, теперь знаю, чем заняться на пенсии  

 
А Гугл - это кстати не только три-четыре килограмма ценного поисковика и машинного переводчика. Он активно вкладывается в робототехнику - помимо проекта беспилотной робомашины, которому уже несколько лет, Гугл две недели назад приобрел компанию Boston Dynamics, производителя одних из самых продвинутых на данным момент механико-электронных роботов (правда, некоторых роботов детям на ночь не стоит показывать ):
https://www.youtube.com/watch?v=QVdQM47Av20

Всего записей: 602 | Зарегистр. 23-04-2004 | Отправлено: 03:46 30-12-2013
XPerformer



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ролик с четвероногим уже довольно давно гуляет в интернете
И опять все очень подозрительно - калька с человека и живой природы. Неужели ничего совершеннее не придумывается?

Всего записей: 2536 | Зарегистр. 20-06-2011 | Отправлено: 03:51 30-12-2013
Xoanon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Неужели никто не работает над тем, чтобы выяснить почему?  
ведь понимание этого x-фактора, который позволяет мозгу превосходить компьютер, одним махом решит множество задач, для которых функциональный подход работает пока недостаточно хорошо.

Нет одного х-фактора. Есть множество факторов, которые нужно сложить чтобы получить результат. Некоторые, конечно, работают, возьмите к примеру проект Cyc Ontology (http://en.wikipedia.org/wiki/Cyc), который длится почти 30 лет (с 1984 года) - строят онтологическую модель знаний окружающего мира для искусственного интеллекта.
 
Добавлено:

Цитата:
ролик с четвероногим уже довольно давно гуляет в интернете  
И опять все очень подозрительно - калька с человека и живой природы. Неужели ничего совершеннее не придумывается?

 
Совершеннее уже давно есть - летательные аппараты разного вида
Для многих повседневных задач, которые выполняет человек на пресеченной местности - ничего лучше и не придумаешь. Например, вам нужен робот-садовник который ходит от куста к кусту и обрезает ветки, ухаживает за клумбами, или сгребает листья...  

Всего записей: 602 | Зарегистр. 23-04-2004 | Отправлено: 03:51 30-12-2013 | Исправлено: Xoanon, 03:52 30-12-2013
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46

Компьютерный форум Ru.Board » Компьютеры » Программы » SDL Trados Studio


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru