Переведи меня через… О трудностях перевода Google.
Вчера и позавчера весь Интернет пестрел сообщениями в стиле “ололо!”:
«Google пойман на грязном деле», – пишут российский пользователи. Они возмущены тем, что фразы “USA is to blame, Russia is to blame”, “Obama is to blame, Medvedev is to blame” введенные в поисковую систему Google, переводились, как “США не виноваты, Россия виновата”, “Обама не виноват, Медведев виноват”. Политически заангажированный рунет быстро окрестил это: «Спланированной акцией зомбирования российских школьников или тайным заговором против России». Уже через несколько часов Google отрапортовал, что ошибка исправлена и извинился. Но это не остановило бурю гнева.
В Google заявили, что сбой в программе произошел по вине одного из программистов. Подобная ошибка была и при переводе фраз «Obama is to blame», «Medvedev is to blame», которые переводились, как «Обама не виноват», «Медведев виноват».
Конечно, Google сразу исправился и все новостные ленты отрапортовали, что “Google больше не считает Россию виноватой”. Однако к моему удивлению я совсем не нашел в Сети пояснения, почему такое вообще оказалось возможно. Все проглотили сообщение о том, что Google признал вину одного из программистов – и все.
Но проблема, как мне кажется, очень интересна, и мне захотелось разобраться в причинах возникновения подобной коллизии.
Переводчик Google уже не первый раз допускает ошибки «по Фрейду». Так несколько месяцев назад сбой возникал при переводе с русского языка на китайский фамилии «Янукович», заменявшейся на «Виктор Ющенко».
В прессе периодически появляются сообщения о курьезах, связанных с переводческим сервисом Google. Так, ранее сообщалось об ошибке, в результате которой фамилия “Янукович” с русского на китайский язык переводилась как “Виктор Ющенко”. В другом случае серьезные проблемы возникали у литовских пользователей. Фраза “As esu Lietuvis” (Я – литовец), по мнению Google Translate, должна была звучать по-английски как “I am Russian” (Я – русский).
Давайте попробуем разобраться, как работает Google Translator.
В системах машинного перевода сегодня существуют две конкурирующие технологии: традиционная (rule-based machine translation) — основанная на правилах и статистическая (statistical-based machine translation). Обе технологии имеют свои плюсы и минусы, приверженцев и противников, и сегодня в Интернете часто обсуждается вопрос, какая из них позволяет получить наиболее качественный результат. Бесплатный сервис онлайн-перевода Google основан именно на статистическом методе (по крайней мере перевод с/на русский язык).
В отличие от традиционной, статистическая технология не использует лингвистические алгоритмы перевода, а основана на статистическом вычислении вероятности совпадений. Для работы этой системы необходимы огромные базы параллельных текстов, где попарно хранятся словосочетания (фразы из 2–3 слов) и их переводы, так называемые N-граммы. В процессе перевода также используется механизм анализа, но не лингвистический, а статистический. Система подбирает вариант перевода, основываясь на частоте совпадений, то есть в конечном итоге будет подставлен вариант, имеющий наиболее высокий процент совпадений.
Слабым местом статистических систем является отсутствие механизма анализа грамматических правил входного и выходного языков. Трудно представить, что система, которая не анализирует текст с точки зрения грамматики, способна выдать связный перевод.
Еще одна проблема состоит в том, что для корректной работы такой системы необходимо иметь в базе не просто очень большое, а невероятно большое количество параллельных N-грамм. Ведь чем больше базы параллельных текстов, тем выше качество перевода.
Тут Google с его терабайтными базами текстов, конечно же, на высоте. Однако и тут есть подводные камни. Дело в том, что для эффективного перевода нужны не просто базы текстов, а базы языковых пар конкретных сочетаний. Ведь от перестановки мест слагаемых сумма может измениться в данном случае довольно существенно. При этом работают тончайшие языковые нюансы, подчас доступные только носителям языка с хорошим чувством этого самого языка.
Google поступает в стиле 2.0 – он предлагает пользователям самим “улучшить качество перевода”, введя лучший вариант перевода конкретной фразы.
Таким образом, небольшая организованная группа может вполне за ограниченное время набрать массу нужных им переводов конкретной фразы, и именно их версия перевода будет признана Google основной. Google назвал это “переводобомбой”, я бы называл это wiki- бомбой, поскольку тут работает эффект википедии.
Но суть от этого не меняется. похоже, мы действительно стоим на пороге лингвистических войн, и патриотическая истерия русской блогосферы не так уж и беспочвенна.
Остается только спросить, а что эти “лингво-хакеры”, прекрасно владеющие русским языком и прописывающие, что Обама не виноват, а Россия виновата, с марса засланные? Или их специально учат русскому языку где-нибудь в Лэнгли, чтобы они деликатно изменили словарь Google?
Вопрос, впрочем, риторический.
Возможно, Вас заинтересует также информация по следующим ключевым словам, которую обычно ищут на моем сайте
• восстановление удаленных файлов ufs
• сайты torrent для интернета ого
• сайт microsoft office 2007 скачать бесплатно
• как сделать доклад ofis
• как сделать чтобы интернет на компьютере сам включался
• офис2007
Метки:Google, Google Translator, Размышления
