SDL Trados Studio - [32] :: Программы :: Компьютерный форум Ru.Board

Цитата:

Тоже интересный вопрос - реально ли развернуть эту систему на одной машине? понятно, что смысла нет, так система должна обучаться, но меня интересуют скорее технические характеристики базы - насколько велика должна быть база для получения перевода приемлемого качества. Вы пишите об огромных объемах текста, и комбинаций из 10 слов очень много.
Скажем, база поиска яндекса велика и требует множества серверов, хранится распределенно.
Интересно, как обстоит дело здесь - интуитивно мне кажется, что объем базы должен быть под силу современному компьютеру.

Всё зависит от требуемой скорости, качества и жанрового охвата. Если вы хотите качество Гугла в любом жанре - вам одной машиной не обойтись.

Цитата:

Совсем непонятно, что это - учитывается грамматика языка (порядок слов в предложении и т.п).

Языковая модель целевого языка - это статистическая модель языка, которая отвечает на вопрос, какая последовательность слов более вероятная в целевом языке. Например, русское слово "большой" на английский может переводиться "large" или "high", к примеру, и просто вероятности перевода даже с учетом контекста не гарантируют вам правильного выбора между этими двумя переводами прилагательного. Тут вступает в действие языковая модель целевого языка, которая, если вы, например, переводите фразу "большой объём данных" и "большой спрос", вам скажет, что вероятность существования комбинации слов "large volume of data" равна столько-то и она больше, чем "high volume of data", и аналогично, "high demand" более вероятно в целевом языке чем "large demand".

Языковая модель строится на основе большого количества текстов одного языка (http://en.wikipedia.org/wiki/Language_model). Из тектов собирается распределение вероятностей комбинаторики на базе униграммов (одного слова), биграммов (двоек слов), триграммов (трое слов), квадриграммов (четверок слов), пентаграммов (пятёрок слов) и т.д. с использованием различных методов сглаживания, свойства Маркова, методов отхода.

Поэтому от модели перевода берутся всегда много вариантов перевода, которые "просеиваются" через языковую модель. При помощи языковой модели решаются и многие грамматические вещи, например, падежи в русском. Для перевода фразы "buy a cow" берется множество комбинаций от модели перевода от наиболее вероятных к менее {купить, приобрести, надыбать, ...} {корова, корову, коровой, корове} и из них само собой языковая модель наиболее вероятным выберет винительный падеж.

Цитата:

Еще интересный вопрос - что считать "словом", а что его контекстом? Допустим на входе обычное предложение из 9 слов. Маловероятно, что за "слово" надо брать пятое слово, скорее, подлежащее или подлежащее+сказуемое...

Надеюсь, с учетом вышеописанного вам теперь понятно, что Гугл использует только слово, так как он пользуется чисто статистическим подходом машинного перевода. И сила статистического подхода в том, что не нужно вникать в грамматический анализ, а нужно лишь наращивать объем тренировочных данных и увеличивать контекст. Т.е. грубо говоря, можно брать силой, а не умом. Есть и более "умные" подходы с грамматическим анализом и синтезом, но разработка и поддерждание/улучшение системы более ресурсоёмко с точки зрения человеческих ресурсов, поэтому большинство предпочитает статистический метод, который в основном пожирает данные и сервера. Самая мощь получилась бы, если бы гугл наложил статистику еще и поверх грамматики, но он не хочет тратиться на бесплатный сервис для миллионов пользователей.

Цитата:

Похоже, вы хорошо разбираетесь в этой теме. Не подскажите, есть ли ощутимая разница в качестве разных авто-переводчиков? когда-то начал использовать гугл-переводчик, так и продолжаю. Babylon как-то не прижился. Есть смысл пробовать другие - яндекс, microsoft... в случаях, когда гугл не справился?

Можете пробовать, нельзя сказать огулом, что одни лучше, другие хуже, они разные, так как они обучаются на разных массивах параллельных и одноязычных текстах, тексты у них по-разному сбалансированы. Чтобы сказать точно, есть специальные метрики качества машинного перевода NIST/BLEU и др., но вы должны взять случайную выборку текстов разных жанров прогнать через все эти системы, рассчитать NIST/BLEU и тогда можно будет сказать что-то объективно. Но для конечного пользователя - это все равно сказки, ему важен перевод конкретного абзаца. А один такой абзац может будет лучше, другой хуже. Но вы и сами можете выбрать, исходя из сравнения, что вам больше нравится, как переводит.

В любом случае, машинный перевод пока имеет основную цель дать понять, о чем текст на другом языке, донести информацию на иностранном языке, а не заменить профессионального переводчика-человека.

Цитата:

Можно ли сказать, что человек строит фразу по тому же принципу?
Родители в детстве формируют языковую модель, исправляя ошибки. Затем накапливается статистика - чем больше человек общается и читает, тем грамотнее речь.
Если да - получается, что мозг (и особенно мозг профессионального переводчика) хранит весь этот объем информации, который пока не под силу хранить и обрабатывать современному компьютеру (в количестве 1 шт).

Нет, в том то и отличие, что человеческий мозг хранит языковую модель на другом принципе - на принципе обощения и аналогии. Т.е. то, что статистический машинный переводчик будет хранить в виде списка состоящего из тысяч-десятков тысяч комбинаторных вариантов, в человечексом мозгу храниться в виде абстрактного правила с сылками на абстрактные категории, лексикон и т.д. Языковая модель статистической модели языка, напротив, должна хранить, например, все комбинации глагола "купить" со всеми его прямыми дополнениями, чтобы иметь возможность правильного выбора падежа. "купить стол", "купить рыбу", "купить приставку" и так до бесконечности... И обощающе-иерархическая человеческая модель работают сразу на любом слове. Например, если вдруг бы появилось слово zzzz в английском, которое переводилось бы новым словом "хрямбля", человек сразу знает из своей обощающе-иерархической модели, что правильно будет "купить хрямблю".

Итого, языковая модель в человеческом мозгу представлена в таком компактном виде, которые не удалось воспроизвести на компьютере. И вы должны понимать, что статистический переводчик - это функциональная модель (т.е. та, которая имеет целью только получить аналогичный результат), а не воспроизводящая (т.е. та, которая помимо получения того же результата, полность повторяет принципы работы моделируемого объекта).

Цитата:

Допустим, вычислительные мощности позволяют резко увеличить контекст - до 20-50 слов.
Разве это повысит качество перевода?

Нет, так как вы забываете о таком понятии, как разреженность данных (data sparsity). Т.е. комбинации с контекстом до пяти слов слева и справа будут в текстах повторятся десятки, сотни, тысячи раз, в то время как почти 100% комбинаций с контекстом 20-50 слов будут встречаться ровно один раз на всём объеме данных, которые доступны в Интернете сейчас, вы просто не представляете, сколько нужно языковых данных, чтобы такой длинный контекст существенно помогал (в миллионы, а то и миллиарды раз больше, чем сейчас есть во всем Интернете).

Разреженность языковых данных вы можете проверить на таком простом примере из 5 слов, которые я написал выше прямо в этом посте - "иметь возможность правильного выбора падежа" - поищите её в кавычках (т.е. на полное совпадение) в Гуглу - поиск даст 0 результатов (т.е. до меня еще никто такую комбинацию 5 слов в Интернете не употребил). Более того, вы просто не представляете, сколько вам места понадобится, чтобы хранить весь этот контекст в 20-50 слов, который встретился в каждом уникальном случае один раз. Именно, поэтому наиболее активно исполльзуются модели с комбинаторикой до 3, больше - не имеет особого смысла, так как при огромном количестве данных, которые надо хранить, все статистические мдели не показывают сколько-нибудь значительного прироста качества. Именно поэтому, во всех моделях, и особенно в моделях с более комбинаторикой больше 3 используются методя отступа на порядок (порядки ниже) или же линейная интерполяция всех порядков.

Более того, у статистической языковой модели есть такое понятие как способность к обобщению (которое далеко от человесексого обобщения, конечно), - это способность успешно работать на новых данных, на которых она не тренировалась. Так вот исходя из этого параметра ценность контекста 20-50 - стремится к нулю. Так как вероятность того, что комбинация из 20 слов, виденных на тренировочных данных встретится в новом тексте также стремится к нулю.

Цитата:

Разве не лучше ввести какой-то параметр типа "тональности" всего текста, который можно посчитать достаточно быстро для 50-100 страниц, и найти похожий текст в базе по этому параметру, и брать вероятности по этому тексту? В этом случае перевод может быть даже лучше оригинала, если в базе тексты высокого качества и слова подобраны точнее для этой предметной области.

Один текст для статистической модели - это ничто, разреженность данных будет стремиться к бесконечности и способность модели к обобщению будет стремиться к нулю.

Кстати, некоторые системы машинного перевода практикуют принцип памяти перевода из того же Trados - если текст/абзац целиком найден в параллельных текстах - выдается его перевод оттуда.

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46