Xoanon
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Цитата: Тоже интересный вопрос - реально ли развернуть эту систему на одной машине? понятно, что смысла нет, так система должна обучаться, но меня интересуют скорее технические характеристики базы - насколько велика должна быть база для получения перевода приемлемого качества. Вы пишите об огромных объемах текста, и комбинаций из 10 слов очень много. Скажем, база поиска яндекса велика и требует множества серверов, хранится распределенно. Интересно, как обстоит дело здесь - интуитивно мне кажется, что объем базы должен быть под силу современному компьютеру. | Всё зависит от требуемой скорости, качества и жанрового охвата. Если вы хотите качество Гугла в любом жанре - вам одной машиной не обойтись. Цитата: Совсем непонятно, что это - учитывается грамматика языка (порядок слов в предложении и т.п). | Языковая модель целевого языка - это статистическая модель языка, которая отвечает на вопрос, какая последовательность слов более вероятная в целевом языке. Например, русское слово "большой" на английский может переводиться "large" или "high", к примеру, и просто вероятности перевода даже с учетом контекста не гарантируют вам правильного выбора между этими двумя переводами прилагательного. Тут вступает в действие языковая модель целевого языка, которая, если вы, например, переводите фразу "большой объём данных" и "большой спрос", вам скажет, что вероятность существования комбинации слов "large volume of data" равна столько-то и она больше, чем "high volume of data", и аналогично, "high demand" более вероятно в целевом языке чем "large demand". Языковая модель строится на основе большого количества текстов одного языка (http://en.wikipedia.org/wiki/Language_model). Из тектов собирается распределение вероятностей комбинаторики на базе униграммов (одного слова), биграммов (двоек слов), триграммов (трое слов), квадриграммов (четверок слов), пентаграммов (пятёрок слов) и т.д. с использованием различных методов сглаживания, свойства Маркова, методов отхода. Поэтому от модели перевода берутся всегда много вариантов перевода, которые "просеиваются" через языковую модель. При помощи языковой модели решаются и многие грамматические вещи, например, падежи в русском. Для перевода фразы "buy a cow" берется множество комбинаций от модели перевода от наиболее вероятных к менее {купить, приобрести, надыбать, ...} {корова, корову, коровой, корове} и из них само собой языковая модель наиболее вероятным выберет винительный падеж. Цитата: Еще интересный вопрос - что считать "словом", а что его контекстом? Допустим на входе обычное предложение из 9 слов. Маловероятно, что за "слово" надо брать пятое слово, скорее, подлежащее или подлежащее+сказуемое... | Надеюсь, с учетом вышеописанного вам теперь понятно, что Гугл использует только слово, так как он пользуется чисто статистическим подходом машинного перевода. И сила статистического подхода в том, что не нужно вникать в грамматический анализ, а нужно лишь наращивать объем тренировочных данных и увеличивать контекст. Т.е. грубо говоря, можно брать силой, а не умом. Есть и более "умные" подходы с грамматическим анализом и синтезом, но разработка и поддерждание/улучшение системы более ресурсоёмко с точки зрения человеческих ресурсов, поэтому большинство предпочитает статистический метод, который в основном пожирает данные и сервера. Самая мощь получилась бы, если бы гугл наложил статистику еще и поверх грамматики, но он не хочет тратиться на бесплатный сервис для миллионов пользователей. Цитата: Похоже, вы хорошо разбираетесь в этой теме. Не подскажите, есть ли ощутимая разница в качестве разных авто-переводчиков? когда-то начал использовать гугл-переводчик, так и продолжаю. Babylon как-то не прижился. Есть смысл пробовать другие - яндекс, microsoft... в случаях, когда гугл не справился? | Можете пробовать, нельзя сказать огулом, что одни лучше, другие хуже, они разные, так как они обучаются на разных массивах параллельных и одноязычных текстах, тексты у них по-разному сбалансированы. Чтобы сказать точно, есть специальные метрики качества машинного перевода NIST/BLEU и др., но вы должны взять случайную выборку текстов разных жанров прогнать через все эти системы, рассчитать NIST/BLEU и тогда можно будет сказать что-то объективно. Но для конечного пользователя - это все равно сказки, ему важен перевод конкретного абзаца. А один такой абзац может будет лучше, другой хуже. Но вы и сами можете выбрать, исходя из сравнения, что вам больше нравится, как переводит. В любом случае, машинный перевод пока имеет основную цель дать понять, о чем текст на другом языке, донести информацию на иностранном языке, а не заменить профессионального переводчика-человека. | Всего записей: 602 | Зарегистр. 23-04-2004 | Отправлено: 21:43 29-12-2013 | Исправлено: Xoanon, 22:25 29-12-2013 |
|