Перейти к публикации
Nightmarish Dream

Переводчик


Evangelion
 Поделиться

Рекомендованные сообщения

Как победить морников: Яндекс запустил гибридную систему перевода

Яндекс.Переводчик начал использовать гибридную систему перевода. К статистическому переводчику, который мы применяем уже давно, добавилась технология перевода на основе нейронной сети. Теперь перевод выполняют обе модели, а затем алгоритм на основе метода машинного обучения CatBoost сравнивает результаты и предлагает лучший.

При переводе нейросеть не разбивает тексты на отдельные слова и фразы — она обрабатывает целые предложения. За счёт этого текст хорошо читается: порой даже можно подумать, что его написал человек. Статистический переводчик так не умеет, зато хорошо запоминает и переводит редкие и сложные выражения. Работая вместе, две системы компенсируют недостатки друг друга.

Статистический перевод

Есть много способов обучить машину переводу с одного языка на другой. Например, можно дать ей словари и грамматики разных языков: с их помощью она освоит правила. Или можно показать ей много параллельных текстов. Сравнивая их, машина научится находить соответствия — например, поймёт, что слова dog и собака являются вероятными переводами друг друга. В основе такого подхода лежат не правила, а статистика, поэтому он называется статистическим.

С момента запуска Яндекс.Переводчик использует статистическую систему. При переводе она разделяет предложения на кусочки (отдельные слова и фразы) и для каждого кусочка подбирает все возможные переводы с указанием их вероятности. Затем система составляет из переведённых фрагментов разные варианты нового предложения. Выбирают тот вариант, который содержит переводы с высокими вероятностями и в котором фрагменты хорошо сочетаются друг с другом.

У статистического переводчика есть как достоинства, так и недостатки. С одной стороны, он хорошо запоминает редкие и сложные слова и фразы. Если они встречались в параллельных текстах, переводчик запомнит их и впредь будет переводить правильно. С другой стороны, результат перевода бывает похож на собранный пазл: общая картина вроде бы понятна, но если присмотреться, то видно, что она составлена из отдельных кусочков.

Нейросетевой перевод

С сегодняшнего дня наряду со статистической системой мы используем в Яндекс.Переводчике нейронную сеть. Модели на нейронных сетях отлично справляются с обработкой естественной информации, например голоса или картинок. Задача перевода — превратить текст на одном языке в текст на другом языке, сохранив содержание и смысл. Текст — это тоже естественная информация, поэтому для нейронной сети такая задача вполне по силам.

Как и статистический переводчик, нейронная сеть анализирует массив параллельных текстов и учится находить в них закономерности. Сам перевод, однако, устроен по-другому. Нейросеть работает не со словами и фразами, а с более крупными единицами — предложениями. Она получает на вход предложение на одном языке, а на выходе выдаёт предложение на другом языке. Дробления на слова и фразы не происходит — в нём нет необходимости.

0_39d350_24b99896_orig

Такой подход позволяет учесть смысловые связи внутри предложения — иными словами, понять его контекст. Слова и фразы не существуют в вакууме — они сочетаются с другими словами и фразами, образуя новые смыслы. Нейросеть улавливает смыслы даже в случае, если слова, которые их передают, находятся в разных частях предложения. Важность контекста сложно переоценить — именно на него в первую очередь обращают внимание люди-переводчики.

Поскольку нейросеть работает не с фрагментами, а с предложениями целиком, перевод получается более связным и «гладким». Чтобы избежать несогласований — например, папа пошла или сильный боль, — Яндекс.Переводчик проводит дополнительную проверку. Предложение, переведённое нейросетью, проходит через модель языка — так называют свод знаний о языке, накопленный системой. Если в перевод вкрались грамматические ошибки, модель их исправит.

Модель языка

Модель языка содержит список всех употребляемых в языке слов и словосочетаний с указанием частоты их использования. Она обеспечивает связность текста и в статистическом, и в нейронном переводе. Её можно использовать и для задач, не связанных с переводом. Когда вы печатаете сообщение с помощью Яндекс.Клавиатуры, машина пытается предсказать, какое слово вы наберёте следующим. Например, если вы набрали «привет, как», она поймёт, что продолжением могут быть слова «дела» или «ты». Это тоже результат работы модели языка.

Гибридная система

У нейросетевого перевода тоже есть свои недостатки. Если по каким-то причинам нейронной сети трудно перевести то или иное предложение — а такое время от времени случается, — она поведёт себя примерно как студент на экзамене: начнёт что-то выдумывать от себя в надежде угадать правильный ответ.

0_39d356_cb7105f8_orig

Кроме того, нейросеть не всегда хорошо справляется с переводом мало распространённых имён, топонимов и других редких слов. Зато для статистического перевода, как вы помните, это нетрудная задача — если слово было в параллельных текстах, машина его запомнит. Мы решили объединить два подхода и создать гибридную систему, которая объединяет статистический и нейросетевой перевод. Работая вместе, две системы компенсируют недостатки друг друга.

Когда Яндекс.Переводчик получает от пользователя текст, он отдаёт его на перевод обеим системам — и нейронной сети, и статистическому переводчику. Затем алгоритм, основанный на методе обучения CatBoost, оценивает, какой перевод лучше. При выставлении оценки учитываются десятки факторов — от длины предложения (короткие фразы лучше переводит статистическая модель) до синтаксиса. Перевод, признанный лучшим, показывается пользователю.

Сейчас гибридная система используется для переводов с английского языка на русский. Это самое популярное направление: на него приходится около 80% всех запросов к Яндекс.Переводчику. В ближайшие месяцы мы включим систему и для других направлений. Чтобы было интереснее, мы добавили в веб-версию Переводчика переключатель — с его помощью можно сравнить гибридный и статистический переводы и понять, чем они различаются.

Ссылка на комментарий
Поделиться на других сайтах

  • Ответы 82
  • Создано
  • Последний ответ

Лучшие авторы в этой теме

Лучшие авторы в этой теме

Может после этой гибридной системы я снова чаще начну пользоваться онлайн-переводчиком от Яндекса, а не от Гугла. Время покажет, а пока буду снова сравнивать переводы там и там.

Ссылка на комментарий
Поделиться на других сайтах

И да, похоже, что в гугловском переводчике уже давно используется подобная технология. Там, при наведении курсора мыши на переведённый текст, также зачастую выделяются целые предложения, как сейчас в Яндекс.Переводчике с включённым нейросетевым переводом.

Ссылка на комментарий
Поделиться на других сайтах

И да, похоже, что в гугловском переводчике уже давно используется подобная технология. Там, при наведении курсора мыши на переведённый текст, также зачастую выделяются целые предложения, как сейчас в Яндекс.Переводчике с включённым нейросетевым переводом.

Возможно, но что-то нейросетевой перевод у Гугла поломался:

Перевод от Гугла тоже не идеален, да:

a852f1310e4c4cc231878c71351ed415.png

Но ё-моё, это ж просто небо и земля на фоне того, как умудряется переводить Яндекс!

a551325e98ecb26a54ee35959689b8ed.png

Гугл:

Комментарии нечленов не будут вызывать уведомления об уведомлениях пользователям, которые помешали этой проблеме.

Яндекс:

Комментарии нечленов не будут вызывать уведомления электронной почты для пользователей, которые сняли эту проблему.

Я просто не могу не оставить это здесь :jokingly:

8f3a73f65a66776590c0a5c291073819.jpg 4cf7f7b6d6391532652d033f017d36f8.jpg

Гугл:

Безопасность: сглаживание доменных имен с использованием всего скрипта (кириллица)

Яндекс пока как и раньше.

Ссылка на комментарий
Поделиться на других сайтах

Продолжаем дружно восхищаться качеством перевода яндекса

:pleasantry:

a40141c207762e25d167b8405072c469.png

И плеваться от убогого и совершенно непонятного перевода гугла :girl_sigh:

99ba81feb2955cde5c4b1971648fe6ee.png

Гугл:

Наступил час отправления, и мы идем разными путями, я умираю, и вы живете.

Яндекс:

Наступил час отъезда, и мы идем разными путями, я умираю, а ты живешь.

Ссылка на комментарий
Поделиться на других сайтах

Всё пытаюсь вкурить, где же у этого Яндекса более естественный перевод. Админ пишет, что у Гугла перевод как правило топорный, слово в слово, но я это постоянно вижу у Яндекса, а никак не у Гугла. Тут уж по оригиналу и то более понятно, о чём речь:

2d29dad4a8a28e9c255df7ac5a020b1f.png

Зато у Гугла всё превосходно и, как всегда, на высшем уровне. Такое ощущение, что человек переводил, профессионально занимающийся переводами, а никак не машина:

1111bcf31fce054a6f658a6209855eae.png

Теперь всё перевожу только в нём! Яндексовский же сервис оставил про запас, так сказать =)

Гугл:

В конце видео я также добавил несколько лишних видеороликов.

Надеюсь, вам понравятся все изменения! Хороших выходных!!

(Пожалуйста, посмотрите видео. Некоторые изменения не могут быть захвачены с помощью простых скриншотов)

Яндекс:

Я также включил некоторые дополнительные кадры глупостей в конце видео.

Надеюсь, вам понравятся все правки! Удачи в выходные!!

(Пожалуйста, взгляните на видео. Некоторые изменения не могут быть записаны с помощью простых скриншотов)

Ссылка на комментарий
Поделиться на других сайтах

Гугл:

В конце видео я также добавил несколько лишних видеороликов.

Надеюсь, вам понравятся все изменения! Хороших выходных!!

(Пожалуйста, посмотрите видео. Некоторые изменения не могут быть захвачены с помощью простых скриншотов)

Яндекс:

Я также включил некоторые дополнительные кадры глупостей в конце видео.

Надеюсь, вам понравятся все правки! Удачи в выходные!!

(Пожалуйста, взгляните на видео. Некоторые изменения не могут быть записаны с помощью простых скриншотов)

У меня немного отличается перевод в обеих случаях:

4ac3c984127932031ca936c7c4fc3657.jpg

5dee4de19a7a26c53273b69ab5817258.jpg

Часто ж у них перевод меняется...

Ссылка на комментарий
Поделиться на других сайтах

Так или иначе, не могу не согласиться с тем фактом, что онлайновый перевод от Яндекса значительно улучшился. Сразу видно, что была проделана отличная работа :good:

Ссылка на комментарий
Поделиться на других сайтах

По сути оба переводчика просто играют со смыслами некоторых слов, в произвольном порядке подставляя то или иное значение.

Особой разницы я не вижу, что в одну, что в другую сторону.

Google:

In fact, both translators simply play with the meanings of some words, substituting an arbitrary value in an arbitrary order.

I do not see a particular difference, that in one, that in the other direction.

Фактически, оба переводчика просто играют со значениями некоторых слов, подставляя произвольное значение в произвольном порядке.

Я не вижу особой разницы, что в одном, в другом направлении.

Yandex:

In fact, both translators just playing with meanings of some words, randomly substituting a particular value.

A special difference I do not see that in one that in other side.

На самом деле, оба переводчика просто играют со смыслами некоторых слов, случайным образом заменяя определенную ценность.

Особой разницы я не вижу, что в одну, что в другую сторону.

Теперь G переведет Ya:

Фактически, оба переводчика просто играют со значениями некоторых слов, случайно подставляя конкретное значение.

Особой разницы я не вижу в том, что в другой стороне.

In fact, both translators simply play with the meanings of some words, randomly replacing a certain value.

I do not see a particular difference, that in one, that in the other direction.

Наоборот:

На самом деле оба переводчика просто играют со смыслами некоторых слов, подставляя произвольное значение в произвольном порядке.

Не вижу особой разницы, что в одном, что в другом направлении.

In fact, both translators just playing with meanings of some words, substituting an arbitrary value in an arbitrary order.

I don't see much of a difference that in one, in the other direction.

Ссылка на комментарий
Поделиться на других сайтах

По сути...

По сути всё было написано в статье выше. И чтобы увидеть разницу, можно посмотреть на предыдущие сообщения.

Ссылка на комментарий
Поделиться на других сайтах

По сути всё было написано в статье выше. И чтобы увидеть разницу, можно посмотреть на предыдущие сообщения.

Да я прочитал. Не знаю, не могу сказать что один лучше другого, местами, где-то один подхватывает первую половину, ломая смысл второй и наоборот.

Все таки Google кроме результата предлагает ещё и ручные правки, которые при частом выборе пользователей становяться защищенными от изменений. Яндекс так и остался машинизированным без опций...

Ссылка на комментарий
Поделиться на других сайтах

Все таки Google кроме результата предлагает ещё и ручные правки, которые при частом выборе пользователей становяться защищенными от изменений.

Он предлагает не ручные правки, а другие варианты перевода. Это раз. Во-вторых, эти другие варианты перевода стали абсолютно бесполезны после того, как он начал переводить предложениями, потому что теперь подсказка с текстом, на основе которого предлагается другой вариант перевода появляется за пределами окна.

Яндекс так и остался машинизированным без опций...

Ты скриншоты выше видел или нет? Возможно, с учётом того, как ты порой сам пишешь, тебе кажется, что переводы, что у Гугла, что у Яндекса, «одинаковые» или «одинаково правильные», однако это не так от слова совсем.

Ссылка на комментарий
Поделиться на других сайтах

  • 3 месяца спустя...

Эмодзи в совершенстве

Давайте поговорим о серьёзном ?  Ладно, на самом деле, о несерьёзном — об эмодзи. С помощью эмодзи люди решают разные задачи. Кто-то использует их как смайлики — чтобы выразить своё отношение к написанному. Кто-то заменяет ими отдельные слова («Хочу ?») — чтобы добавить тексту наглядности. А иногда можно обойтись и вовсе без слов, одними эмодзи — например, «???  2?1?:0?0?».

В каком-то смысле эмодзи — отдельный язык с пиктографическим письмом, как у древних шумеров. Теперь этим языком владеет и Яндекс.Переводчик. Введите в Переводчик отдельное слово, словосочетание или целую фразу, и он представит их в виде эмодзи. Или наоборот: можно перевести на русский набор картинок, который вам прислали в чат, — возможно, при этом откроется новый смысл послания.

Как Переводчик выучил эмодзи

Переводчик учит языки путём анализа параллельных текстов. В случае с эмодзи такой подход не работает. Параллельные тексты, в принципе, существуют — например, в 2015 году пресс-релиз о новой модели «Шевроле» вышел одновременно и на английском и на эмодзи, — но их крайне мало. Зато в интернете есть «словари» — сайты, где собраны всевозможные эмодзи, их описания и толкования.

Эмодзи не так много — счёт идёт на тысячи. Поэтому подобрать прямое соответствие в словарях можно далеко не для всех слов. Скажем, вы вряд ли найдёте пиктограммы, обозначающие слово «квас» (потому что эмодзи придумали в Японии, а квас распространён в России) или слово «клавесин» (потому что это древний инструмент, а эмодзи появились относительно недавно). Чтобы адекватно передавать такие слова с помощью эмодзи, важно понимать их смысл. Квас — напиток, значит, его можно изобразить, например, вот так: ?. Клавесин — клавишный музыкальный инструмент, поэтому самым подходящим по смыслу эмодзи будет ?

0_3cd1fb_853c03ad_orig

Поиск Яндекса уже умеет искать по смыслу — мы рассказывали в блоге про поисковые алгоритмы «Палех» и «Королёв». Похожий подход мы задействовали и для эмодзи. Когда вы хотите перевести на эмодзи ту или иную фразу, Переводчик разбивает её на отдельные элементы: слова и комбинации слов. Каждый элемент представляется в виде вектора — иными словами, записывается в виде набора чисел. Аналогичная операция проводится и с описаниями эмодзи. Затем векторы сопоставляются. Чем ближе друг к другу находятся векторные представления, тем точнее смысловое соответствие между словами и эмодзи.

***

Переводчик может переводить на эмодзи и обратно слова и фразы на любом из известных ему 94 языков. Перевод работает в веб-версии сервиса и в приложениях для iOS и Android. Понимание смысла позволяет Переводчику подбирать эмодзи-эквиваленты практически для любых понятий ?

Ссылка на комментарий
Поделиться на других сайтах

  • 3 года спустя...

В Гугл переводчике наконец-то сделали автоперенос текста выделенного фрагмента по строкам. Раньше вообще невозможно было пользоваться, потому что строка предложения уходила далеко за пределы экрана.

Ссылка на комментарий
Поделиться на других сайтах

  • 8 месяцев спустя...

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.

Гость
Ответить в теме...

×   Вставлено в виде отформатированного текста.   Восстановить форматирование

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

 Поделиться

×
×
  • Создать...