На заре развития компьютерной техники люди мечтали, что появятся чудо-аппараты, которые сделают жизнь значительно проще. Один из них — автоматический переводчик, который окончательно стер границы между нациями и странами. Но прошло много времени, а компьютер не научился переводить стихи, романы или фильмы. О трудностях автоматического перевода Digital.Report рассказал директор по развитию бизнеса легендарной российской компании PROMT Юлия Епифанцева.
Ваша компания — одна из пионеров среди создателей программ для автоматизированных переводов. На российском рынке даже есть устоявшееся выражение, которое, правда, указывает на недостатки автоматизированного перевода. Удалось ли вашей компании с момента основания совершить в машинном переводе революцию, и в чем она заключается?
Устоявшееся выражение, которое вы, наверно, имеете в виду (фраза вроде «а, ну понятно, как будто ПРОМТом перевели») – это, скорее, признание бренда компании и ее продуктов, так как в России сложно встретить человека, который умеет пользоваться компьютером, и не знает, что такое переводчик PROMT.
Технологии компании — это сфера искусственного интеллекта, то есть создание интеллектуальных систем, выполняющих творческие функции, на которые способен только человек, например, перевод с одного естественного языка на другой. Кстати, согласитесь, что далеко не каждый человек способен перевести текст с иностранного языка на родной, а уж с нескольких языков – и подавно.
При этом не совсем корректно сравнивать работу компьютера и возможности живого человека. Скорость обработки информации у компьютера выше, он способен перерабатывать большое количество данных за короткий промежуток времени, компьютер не может сделать опечатку, потому что «устал», в одинаковых условиях программа выдает один и тот же результат и т.д. Однако компьютер только работает с данными, тогда как язык человека неотделим от мышления, поэтому человек, уступая компьютеру в скорости обработки информации, способен выражать любые мысли и идеи с помощью языка, оперировать понятиями, а еще использовать язык для выражения эмоций. Можно сказать, что компьютерные программы имеют дело только с внешней языковой структурой, тогда как человек и с внешней, и с внутренней. Нам кажется, что такое выражение, как ‘промтить’, звучат ласково по отношение к роботу, который пока, или вообще, не способен достичь уровня владения языком обыкновенного смертного.
Что касается революции – то да, мы совершенно искренне считаем, что совершили революцию в автоматическом переводе, только наша революция связана с кропотливым трудом, и не имеет ничего разрушительного в своей сути. Собственно, не мы одни считаем, что наши технологии уникальны — четыре года подряд, с 2013 по 2016, PROMT получает лучшие оценки экспертов за автоматический перевод с английского языка на русский на семинаре по автоматическому переводу под эгидой международной Ассоциации компьютерной лингвистики (ACL). Четыре года подряд эксперты (т.е. люди с их субъективными взглядами и мнениями) анонимно расставляют оценки переводам, выполненным разными системами, и четыре года подряд выясняется, что переводы PROMT с английского на русский оказываются лучшими. Это не может быть случайностью, это можно объяснить только технологией и квалификацией специалистов-разработчиков.
Строит отметить, что автоматический перевод и в мире, и в России стал одним из первых успешных шагов в коммерциализации искусственного интеллекта. Так что «революция» еще и прибыль принесла… Наши продукты стали доступны на российском рынке одновременно с появлением у людей персональных компьютеров. Вспомните, какая это была закрытая страна до 90-х годов… и вдруг открылся мир. А как с этим миром общаться, когда практически все население иностранными языками не владеет? Так что автоматический перевод был одной из самых востребованных технологий на тот момент.
Можно ли добиться идеального машинного перевода? Что мешает вашим разработчикам оставить без работы секретарь-референтов?
Идеальный – понятие очень субъективное. Например, если дать текст технической документации двум переводчикам, а потом попросить несколько специалистов-инженеров оценить результат, то, уверяю вас, слишком мала вероятность, что один из результатов будет безоговорочно признан идеальным всеми судьями. Наверно, переводы Пастернака или Набокова можно признать идеальными, но и Пастернак, и Набоков, согласитесь, штучный, не тиражируемый товар.

Директор по развитию бизнеса российской компании PROMT Юлия Епифанцева
Несмотря на то, что автоматический перевод забирает львиную долю рутинной работы переводчиков, без работы они точно не останутся. Есть же переводчики художественной литературы, они не только владеют языком, но и являются мастерами слова, у них нет цели сделать точную кальку с оригинальной книги. Есть переводчики технической, юридической или какой-то иной документации, которые, кроме языка, знают определенную предметную область. Вот работу этих специалистов по переводу типовой документации мы можем в значительной степени упростить, но никак не заменить их полностью. Такой вид перевода – крайне рутинная и даже скучная деятельность, которую без средств автоматизации почти невозможно оптимизировать, а объемы там очень большие. Именно поэтому на рынке появились CAT-системы (Computer-Added Translation), которые, например, помогают не переводить повторно то, что уже было однажды переведено и сохранено в базе переводов (Translation Memory Technology). Автоматический перевод служит подстрочником, который специалист-переводчик проверяет и редактирует, и это уже делает его работу, во-первых, более творческой, во-вторых, существенно более быстрой, в-третьих уменьшает влияние человеческого фактора, в-четвертых – более дешевой, что очень важно для бизнеса. Переводческие услуги – это очень дорогая работа.
Но на самом деле автоматический перевод в еще большей степени используется не профессиональными переводчиками, а специалистами в других областях для мгновенного перевода рабочей информации. Такой способ использования называется gisting (от английского gist — смысл), т.е. перевод, чтобы понять смысл, перевод, который не редактируется, не доводится до идеального варианта. Про такой перевод можно сказать — good enough is just good enough. Там что, возможно, мы отчасти лишили секретаря-референта переводческой работы, потому что автоматическим переводом может воспользоваться каждый. Хотя, уверена, референт и сам какие-то рабочие задачи решает с помощью автоматического переводчика.
Многие фантастические романы описывают аппарат, который на лету переводит устную речь и более того, может обучаться новым языкам. Возможно ли создание такого аппарата в реальных условиях?
Такой аппарат не представляет собой ничего особо сложного, это сочетание некоторых технологий, которые давно существуют на практике. Например, есть программы распознавания речи и ее превращения в текст. Если есть текст, то его можно автоматически перевести и даже потом озвучить. На практике все немного сложнее, так как распознанная устная речь (automatically speech recognition and automatically transcribed speech) сильно отличается от письменной речи и имеет много особенностей, поэтому и технологии автоматического перевода приходится специально адаптировать и настраивать для автоматического перевода устной речи. Но такие проекты мы в PROMT уже реализовывали – настраивали наш переводчик с английского, испанского, французского на русский для перевода автоматически записанной речи дикторов новостных ресурсов… Что касается обучения, то тоже вопрос, что называть обучением, какие данные есть в наличии, и на какой результат нужно рассчитывать.
Сегодня в сети интернет можно встретить достаточно много решений для автоматизированного перевода? Что стало причиной обострения конкуренции в этой сфере и появления бесплатных решений?
Когда мы 18 лет назад запустили бесплатный онлайн-сервис перевода Translate.Ru, который на тот момент был первым в России, нам многие говорили, что это скажется на продажах платных продуктов, пророчили всякие нехорошие вещи вроде падения прибыли. К счастью, мы не поверили, и оказались правы: облачный сервис в результате развился в успешный проект, который приносит неплохой доход от рекламы на сайте и в мобильных приложениях, интеграции технологий в другие сервисы, например, в SpanishDict, и помогает продавать в b2b сегменте благодаря «наслышанности» о бренде. Мы его делали не с расчетом победить кого-то в конкурентной борьбе, скорее, это был просто один из проектов.
А вообще, ситуация сложная и в какой-то мере неоднозначная. Необходимо различать конкуренцию в бизнес-сегменте и среди сервисов для частного использования. Сейчас конкуренция в потребительском сегменте крайне высока: свои технологии автоматического перевода имеют Microsoft, Google, Яндекс, то есть компании, представляющие также поисковые сервисы, задача которых наращивать аудиторию и удерживать пользователя, в том числе через бесплатные сервисы. Эти компании заинтересовались переводческими технологиями по мере развития интернета и накопления огромного количества текстов на разных языках. В автоматическом переводе сейчас эра статистических технологий, в основе которых создание и обучение системы на основе огромных текстовых массивом. При этом у всех примерно одинаковые опции и возможности, и, по сути, это «борьба интерфейсов». Поисковики часто идут на хитрость — так, если раньше по запросу «перевод собака на английский» предлагались сервисы онлайн-перевода на выбор, то тот же Google стал просто выдавать перевод сразу, таким образом, оставляя пользователя у себя на сайте. Так что конкуренция здесь очень жесткая.

Вавило́нская ба́шня
У обычного пользователя может сложиться впечатление, что рынок автоматического перевода крайне насыщен, потому что открываешь GooglePlay или AppStory — а там великое множество мобильных приложений-переводчиков, есть в интернете много сервисов, предлагающих бесплатный перевод. Но на самом деле большинство сайтов и приложений – это интерфейсы, которые обращаются к крайне небольшому количеству компаний-разработчиков технологий: Google, PROMT, Яндекс, Bing. Игроков в отрасли, по сути, не так и много, потому что разработка технологий перевода очень дорога. И этим занимаются в качестве непрофильного направления либо гиганты-поисковики вроде Google и Яндекс, которые «накопили» у себя в базе данных большое количество текстов на разных языках, либо компании вроде PROMT, которые вошли на рынок еще давно, более 20 лет назад.
С другой стороны есть корпоративный рынок автоматического перевода. Здесь у PROMT нет прямых конкурентов в России, так как нет других вендоров, предлагающих масштабируемые решения для офлайн перевода для 20 языков, с возможностью интеграции в корпоративный портал, с возможность настройки под задачи клиента.
Почему ваша компания до сих пор продвигает ручной перевод? Это признание в том, что идеального машинного перевода не может быть в принципе? Даже с условием развития искусственного интеллекта?
У человека – свои преимущества, у машинного перевода – свои. То, что может машина, не может человек, и в школе наши дети по-прежнему учатся писать, читать, считать и рисовать, и, надеюсь, будут учиться и дальше, несмотря на иногда встречающееся спекулятивное заявление, что все это уже не нужно, компьютеры за нас все будут делать. Машинный перевод решает те задачи, которые не может решить человек, и позволяет оптимизировать время работы и затраченные усилия, но он никого не заменяет полностью, нет такой задачи.
В PROMT раньше был отдел перевода, который использовал в своей работе наши технологии машинного перевода, можно сказать, что мы на нем «обкатывали» свои разработки.
Почему качество машинного перевода растет так медленно? Что его сдерживает — аппаратные ресурсы или возможности лингвистов и разработчиков?
Качество растет очень быстро! Я напомню историю машинного перевода. В 1954 году был проведен так называемый Джорджтаунский эксперимент, когда в штаб-квартире IBM был продемонстрирован полностью автоматический перевод 60 очень простых предложений с русского на английский в режиме реального времени. Этот эксперимент повлиял крайне положительно на отношение к машинному переводу как со стороны крупных компаний, так и со стороны правительства, что позволило привлечь финансирование к разработкам в области машинного перевода. Однако в 1966 г. специально созданная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee) пришла к заключению, что машинный перевод нерентабелен: соотношение его стоимости и качества было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. За докладом ALPAC последовало сокращение финансирования исследований в области машинного перевода со стороны правительства США — и это несмотря на то, что в то время системы машинного перевода регулярно использовались рядом военных и научных организаций (ВВС США, Комиссия США по ядерной энергии и т.д.).
Потом последовали годы «забытья», но на самом деле в мире было несколько центров, активно занимавшихся развитием автоматического перевода, в том числе и в СССР. Например, активные исследования велись в Лаборатории инженерной лингвистики Педагогического института имени А. И. Герцена в 1970 — 80 гг.
Но настоящий переворот случился в 89-90 гг., потому что машинный перевод стал востребован коммерческими компаниями. Да и обычные пользователи стали испытывать потребность в быстром, дешевом и удобном переводе информации без посредников.
За последние годы произошло существенное улучшение технологий машинного перевода. Во-первых, ожидания людей стали более адекватными, пользователи перестали относиться к машинному переводу так же, как к «человеческому», и делают выбор в пользу быстроты и удобства. Во-вторых, действительно выросло качество. Это связано с развитием технологий, доступностью данных для анализа и настройки. Важен также такой аспект, как специализация. Тут уместно сравнение с человеком: один умеет лечить людей, другой – делать чертежи; один переводчик переводит медицинскую литературу, другой – документацию к программному обеспечению. То же самое и с автоматическими переводчиками. Они также обучаются и настраиваются на перевод определенных текстов. И это самый надежный путь к высокому качеству перевода. Я уже упоминала про наши успехи на семинаре по автоматическому переводу под эгидой международной Ассоциации компьютерной лингвистики (ACL). Для семинара системы тренируются на новостных текстах.
Это и есть специализация. Мы много работает над тем, чтобы такой тип текста, такая лексика хорошо переводились. У нас также есть успешный проект по переводу отзывов пользователей на сайте TripAdvisor. И в том, и в другом случае речь идет не о переводе «на раз», а о проектной работе, где специалисты изучают часть будущих материалов для перевода, делают настройку – у нас богатый инструментарий и квалифицированные специалисты под такие задачи. Важно и то, что благодаря подобным проектам поднимается качество перевода в целом. В ближайшее время мы планируем участие в международном проекте Европейского союза (это, кстати, уже наш третий проект с EC), где объектом перевода будут тексты из социальных сетей, блогов, мессенджеров на итальянском, испанском, португальском, арабском языках. Для того, чтобы получить хорошее качество перевода, наша система обязательно будет обучаться и настраиваться.
В процессе разработки машинного перевода находились ли в языках интересные закономерности, которые, например, подтверждали бы библейскую историю появления разных языков?
Конечно, у многих европейских языков, которыми мы занимаемся, когда-то был общий язык. При машинном анализе многие общие закономерности становятся очевидней. С другой стороны, каждый язык по-своему описывает картину мира, выделяет в нем значимое…
Вообще, есть интересные наблюдения. Например, многие исследования и тесты по машинному переводу проводятся на системах перевода с английского на французский. И это объяснимо с практической точки зрения, так как это очень благодарная языковая пара, автоматический перевод с английского хорошо «ложится» на французский, хотя языки принадлежат к разным языковым группам. А немецкий акцент хорошо слышится даже в машинном переводе.
Каким вам видится общий язык на планете? На каком языке заговорит весь мир, если завтра он решит объединится?
Надеюсь, что сохранятся разные языки… Язык – это отражение картины мира, менталитета, культуры людей.
Не могу сказать, что у нас миссия уничтожать языки. Наоборот, мы помогаем преодолевать языковые барьеры, расширяем границы проникновения информации из одного языка социума в другие, способствуем объединению людей, а языки при этом, конечно, живут и развиваются.
На какие новые продукты ориентируется ваша компания в будущем? Можно ли в долгосрочной перспективе разработать уникальный продукт, за которым в очередь выстроится весь мир? Что это может быть?
Мы сейчас много внимания уделяем технологиям для работы с текстовыми неструктурированными Большими данными (Big Data). Рынок Big Data сегодня стремительно растет, по прогнозам компании IDC, к 2019 году он достигнет $48,6 млрд. Для многих компаний возможность использовать Big Data является ключевой темой — речь идет про медиа, фармацевтическую и телекоммуникационную отрасли, банковский сектор, e-commerce и другие отрасли, где важно исследовать потребителя и давать обратную связь. Поэтому решения для работы с BigData крайне востребованы на рынке. Нужно, однако, учесть, что текстовые большие данные – это крайне непростой контент для анализа и извлечения информации, потому что недостаточно только математических методов, нужны лингвистические технологии, которые будут учитывать морфологию, синтаксис и семантику естественных языков. Все это открывает перед нами большие возможности по внедрению инструментов автоматического перевода и лингвистического анализа в различные информационно-аналитические системы, работающие с Big Data.
Мы не так давно выпустили на рынок продукт PROMT Analyser, который помогает находить, извлекать, обобщать и структурировать информацию из практически любого текстового контента на разных языках как в корпоративных системах, так и во внешних источниках. Программа анализирует любые тексты или документы, выделяет в них главное (например, персоналии, организации, географические названия, геополитические сущности), а также определяет соотносящиеся с этими сущностями действия, дату и место совершения действия, формирует целостный образ документа.
Программа, интегрированная в информационно–аналитические и поисковые системы, позволяет решать самые разные задачи клиента в работе с текстовым материалом: анализ внутренних ресурсов компании (системы документооборота), анализ внешних ресурсов (медиа, блогосфера и пр.), анализ данных, получаемых из закрытых источников, для оценки критичности ситуаций, анализ деятельности объекта с привязкой к географии, а также оптимизация поисковых систем и служб поддержки. С помощью системы можно сократить время на поиск необходимой информации из самых разных неструктурированных корпоративных документов (счета, отчеты, технические задания, новости и пр.). Так что да, ближайшее будущее – это инструменты для работы с Big Data.
Помогает ли вам государство в развитии и совершенствовании продукта, возможны ли крупные государственные заказы в вашей области?
Среди наших клиентов, безусловно, есть крупные государственные институты. Есть и интересные проекты, например, с Федеральным институтом промышленной собственности. Основной задачей, стоявшей перед PROMT в этом проекте, было создание многофункциональной масштабируемой платформы перевода для автоматизации процесса перевода текстов и документов графических форматов и запросов в поисковые международные системы. На сегодняшний день платформа обеспечивает мгновенный качественный перевод патентного документа или его фрагмента с английского, немецкого, французского, итальянского и испанского языков на русский язык. Также программа автоматически переводит с русского языка запросы патентных экспертов к международной поисковой системе PatSearch для возможности поиска релевантной информации в базах патентов на различных языках. В среднем, за день на платформу перевода поступает 800 запросов на перевод, что составляет почти 2500 страниц текста или 625 000 слов. Безусловно, такие крупные проекты, успешные внедрения положительно сказываются на развитии технологий и продуктов PROMT. Есть и другие проекты и, надеемся, что их будет еще больше. И, конечно, однозначно позитивно на развитие и нашей отрасли, и всей ИТ-индустрии повлияет благополучное состояние экономики и разумные законы.
- Like
- Digg
- Del
- Tumblr
- VKontakte
- Buffer
- Love This
- Odnoklassniki
- Meneame
- Blogger
- Amazon
- Yahoo Mail
- Gmail
- AOL
- Newsvine
- HackerNews
- Evernote
- MySpace
- Mail.ru
- Viadeo
- Line
- Comments
- Yummly
- SMS
- Viber
- Telegram
- Subscribe
- Skype
- Facebook Messenger
- Kakao
- LiveJournal
- Yammer
- Edgar
- Fintel
- Mix
- Instapaper
- Copy Link