Домой /  Интернет / Программы памяти переводов (ТМ-программы). Машинный перевод – нет! TM-программы – да

Программы памяти переводов (ТМ-программы). Машинный перевод – нет! TM-программы – да

Говоря об автоматизированном переводе, обычно подразумевают программы, осуществляющие перевод на основе технологии машинного перевода (Machine Translation). Однако существует и другая технология - Translation Memory, которая хотя и не столь широко известна российским пользователям, но, тем не менее, имеет ряд преимуществ.

Бурное развитие технического прогресса привело к увеличению числа технических устройств, машин и другой сложной техники, без которых жизнь современного человека практически немыслима. Например, объем документации для европейского самолета Airbus исчисляется десятками тысяч страниц. Как показывают данные исследования, проведенного в конце 2004 года ассоциацией LISA (LISA 2004 Translation Memory Survey), 42% опрошенных переводят около 1 млн. слов в год, у 24% компаний - участников опроса ежегодный объем переводов составляет 1-5 млн., 12% переводят от 5 до 10 млн., объем переводов остальных компаний - от 10 до 500 и более миллионов слов в год. В частности, большинство производителей сегодня не ограничиваются своим локальным рынком и активно осваивают региональные рынки. При этом локализация продукции, в том числе перевод описания продукта на местный язык, является одним из обязательных условий для выхода на новый рынок.

В то же время, хотя производители регулярно выпускают новые версии своих продуктов - автомобилей, экскаваторов, компьютеров и мобильных телефонов, программного обеспечения, - далеко не все из них принципиально отличаются от предыдущих моделей. Подчас новая модель телефона представляет собой слегка измененную (или рестайлинговую) предыдущую модель. Новые версии продаются лучше, поэтому производителям приходится регулярно обновлять свои продукты. В результате документация по каждому из таких продуктов зачастую на 70-90% совпадает с той, что была у предыдущей версии.

Два фактора - большой объем требующих перевода документов и их высокая повторяемость - послужили стимулом к созданию технологии Translation Memory (сокращенно именуется TM, общепринятый русский перевод этого термина отсутствует). Суть технологии TM можно образно передать одной фразой: «Не переводить один и тот же текст дважды». Иначе говоря, Translation Memory используется для повторного использования ранее сделанных переводов. Это позволяет серьезно сократить время на подготовку перевода, особенно при работе с текстами, имеющими высокую степень повторяемости.

Технологию Translation Memory часто путают с машинным переводом (Machine Translation), которая, безусловно, тоже полезна и интересна, но ее описание не является целью настоящей статьи. Использование технологии ТМ повышает скорость перевода за счет уменьшения объема механической работы. Однако важно отметить, что TM не выполняет перевод за переводчика, а является мощным инструментом для сокращения затрат при переводе повторяющихся текстов.

Технология ТМ работает по принципу накопления результатов перевода: в процессе перевода в базе ТМ сохраняются исходный текст и его перевод. Для облегчения обработки информации и сравнения различных документов система Translation Memory разбивает весь текст на отдельные кусочки, которые называются сегментами. Такими сегментами чаще всего являются предложения, но могут быть приняты и другие правила сегментации. При загрузке нового текста система TM осуществляет сегментирование и сравнивает сегменты исходного текста с уже имеющимися в подключенной базе переводов. Если системе удается найти полностью или частично совпадающий сегмент, то его перевод отображается с указанием совпадения в процентах. Сегменты, которые отличаются от сохраненного текста, выделяются подсветкой. Таким образом, переводчику остается только перевести новые сегменты и отредактировать частично совпадающие.

Как правило, задается порог совпадений на уровне не ниже 75%, так как если установить меньший процент совпадений, то увеличатся затраты на редактирование текста. Каждое изменение или новый перевод сохраняются в ТМ, так что нет необходимости переводить одно и то же дважды!

Важно также постоянно пополнять базу Translation Memory, сохраняя в базе (или в базах, если перевод выполняется по различным тематикам) пары сегментов «исходный текст - правильный перевод». Это позволит значительно сократить время, необходимое для перевода сходных текстов. Помимо снижения трудоемкости перевода система TМ позволяет выдержать единство терминологии и стиля во всей документации.

Использование технологии ТМ обеспечивает переводчику следующие преимущества:

  • повышение производительности труда. Подстановка даже на 80% совпадающих сегментов из базы переводов может сократить время работы над переводом на 50-60%. Как показывает практика, гораздо эффективнее править уже готовый перевод, чем переводить заново - «с нуля»;
  • единство терминологии и стиля при наличии базы переводов по тематике переводимого документа. Это особенно важно при переводе узкоспециальной документации;
  • организация работы коллектива переводчиков с гарантированным качеством перевода благодаря доступу к общей базе Translation Memory.

Отдельно отметим, что в западных странах, где технология Translation Memory давно уже стала де-факто обязательным инструментом переводчика, средства, потраченные на создание базы переводов, рассматриваются не как затраты, а, скорее, как инвестиции в стабильную и качественную работу, что увеличивает не только прибыль, но и стоимость самой компании.

Рынок систем Тranslation Мemory

Бесспорным лидером на рынке систем Translation Memory являются программы SDL-TRADOS. Летом 2005 года произошло объединение двух крупнейших разработчиков систем ТМ - компаний SDL и TRADOS (программные продукты под торговой маркой TRADOS хорошо известны многим пользователям), и теперь они выпускают совместный продукт, который является законодателем стандартов в области Translation Memory.

Новая система SDL-TRADOS имеет расширенные (настраиваемые пользователем) функциональные возможности нечеткого соответствия (поиск по совпадениям в базе переводов), а также инструментарий для проверки качества переводимых документов. Программа осуществляет проверку орфографии и защищает содержимое блоков памяти с помощью технологии шифрования.

Система поддерживает такие форматы, как Word DOC и RTF, online help RTF, PowerPoint, FrameMaker, FrameMaker +SGML, FrameBuilder, Interleaf, QuickSilver, Ventura, QuarkXPress, PageMaker, SGML/HTML/XML, включая HTML Help, RC (Windows Resource), Bookmaster (DCF) и Troff. Помимо системы SDL-TRADOS, на IT-рынке имеются и другие системы ТМ. Особенно широко представлены французские производители.

Система французской компании Atril (www.atril.com) называется. Ее разработчики сначала организовали собственное бюро перевода технической документации, после чего возникла идея создания специализированного ПО на основе технологии Translation Memory.

Это самостоятельное приложение с систематизированным меню. Система может создавать базы ТМ, а также базы данных терминологии и подключать словари. Процесс перевода осуществляется в специальной оболочке Project, куда при ее создании прикрепляется файл, который необходимо перевести, и подключаются дополнительные настройки: база ТМ, словари и др. Текст переводится в специальной таблице, где напротив каждой графы его оригинала нужно заполнить вариант перевода. К преимуществам также относится дополнительная функция для перевода файлов различных форматов, которая позволяет сохранить исходное форматирование файла.

При наличии на компьютере установленной антивирусной программы можносканировать все файлы на компьютере, а также каждый файл в отдельности . Можно выполнить сканирование любого файла, щелкнув правой кнопкой мыши на файл и выбрав соответствующую опцию для выполнения проверки файла на наличие вирусов.

Например, на данном рисунке выделен файл my-file.tm , далее необходимо щелкнуть правой кнопкой мыши по этому файлу, и в меню файла выбрать опцию «сканировать с помощью AVG» . При выборе данного параметра откроется AVG Antivirus, который выполнит проверку данного файла на наличие вирусов.


Иногда ошибка может возникнуть в результате неверной установки программного обеспечения , что может быть связано с проблемой, возникшей в процессе установки. Это может помешать вашей операционной системе связать ваш файл TM с правильным прикладным программным средством , оказывая влияние на так называемые «ассоциации расширений файлов» .

Иногда простая переустановка EOSAT Landsat Thematic Mapper Bitmap Data может решить вашу проблему, правильно связав TM с EOSAT Landsat Thematic Mapper Bitmap Data. В других случаях проблемы с файловыми ассоциациями могут возникнуть в результате плохого программирования программного обеспечения разработчиком, и вам может потребоваться связаться с разработчиком для получения дополнительной помощи.


Совет: Попробуйте обновить EOSAT Landsat Thematic Mapper Bitmap Data до последней версии, чтобы убедиться, что установлены последние исправления и обновления.


Это может показаться слишком очевидным, но зачастую непосредственно сам файл TM может являться причиной проблемы . Если вы получили файл через вложение электронной почты или загрузили его с веб-сайта, и процесс загрузки был прерван (например, отключение питания или по другой причине), файл может повредиться . Если возможно, попробуйте получить новую копию файла TM и попытайтесь открыть его снова.


Осторожно: Поврежденный файл может повлечь за собой возникновение сопутствующего ущерба предыдущей или уже существующей вредоносной программы на вашем ПК, поэтому очень важно, чтобы на вашем компьютере постоянно работал обновленный антивирус.


Если ваш файл TM связан с аппаратным обеспечением на вашем компьютере , чтобы открыть файл вам может потребоваться обновить драйверы устройств , связанных с этим оборудованием.

Эта проблема обычно связана с типами мультимедийных файлов , которые зависят от успешного открытия аппаратного обеспечения внутри компьютера, например, звуковой карты или видеокарты . Например, если вы пытаетесь открыть аудиофайл, но не можете его открыть, вам может потребоваться обновить драйверы звуковой карты .


Совет: Если при попытке открыть файл TM вы получаете сообщение об ошибке, связанной с.SYS file , проблема, вероятно, может быть связана с поврежденными или устаревшими драйверами устройств , которые необходимо обновить. Данный процесс можно облегчить посредством использования программного обеспечения для обновления драйверов, такого как DriverDoc .


Если шаги не решили проблему , и у вас все еще возникают проблемы с открытием файлов TM, это может быть связано с отсутствием доступных системных ресурсов . Для некоторых версий файлов TM могут потребоваться значительный объем ресурсов (например, память/ОЗУ, вычислительная мощность) для надлежащего открытия на вашем компьютере. Такая проблема встречается достаточно часто, если вы используете достаточно старое компьютерное аппаратное обеспечение и одновременно гораздо более новую операционную систему.

Такая проблема может возникнуть, когда компьютеру трудно справиться с заданием, так как операционная система (и другие службы, работающие в фоновом режиме) могут потреблять слишком много ресурсов для открытия файла TM . Попробуйте закрыть все приложения на вашем ПК, прежде чем открывать HP Internet Advisor Capture File. Освободив все доступные ресурсы на вашем компьютере вы обеспечите налучшие условия для попытки открыть файл TM.


Если вы выполнили все описанные выше шаги , а ваш файл TM по-прежнему не открывается, может потребоваться выполнить обновление оборудования . В большинстве случаев, даже при использовании старых версий оборудования, вычислительная мощность может по-прежнему быть более чем достаточной для большинства пользовательских приложений (если вы не выполняете много ресурсоемкой работы процессора, такой как 3D-рендеринг, финансовое/научное моделирование или интенсивная мультимедийная работа). Таким образом, вполне вероятно, что вашему компьютеру не хватает необходимого объема памяти (чаще называемой «ОЗУ», или оперативной памятью) для выполнения задачи открытия файла.

Вот он, чудо-переводчик будущего!
Но до его создания еще немало лет.

Если ты, читатель, когда-либо читал фантастическую литературу или смотрел фантастический фильм, то, возможно, видел на поясе или на плече, или даже на лбу космонавта-астронавта-контактера с внепланетными цивилизациями такую маленькую коробочку. Или диск. Или вообще нечто, скажем, специализированного робота. Используя которого, герой совершает маленькое чудо: он слушает собеседника и прекрасно его понимает, ибо собеседник говорит на его родном, земном языке; мало того, герой тоже может говорить, и собеседник его тоже понимает, ибо волшебный аппарат преобразует слова героя в этот иноземной язык. Вот оно, воплощение передовых технологий будущего – машина-переводчик! Которая мгновенно подстраивается к местному диалекту и с 2-3 фраз обучается новому языку.

Попробовал автопереводчик?
Отдай его врагу.

А теперь вернемся в наш современный мир и подумаем, а есть ли у нас уже сегодня прототипы таких волшебных коробочек? Есть конечно. Например, есть автоматический переводчик Google. Всего ничего, включил браузер, запустил расширение Google Translate, и вот тебе счастье, все веб-страницы автоматически переводятся на твой родной язык. Или можно пойти на сайты онлайн-перевода или даже установить специальную программу, и все, можно переводить. Есть, правда, маленькая проблемка: очень скоро все эти псевдопереводы начинают сводить с ума. Простой и ясный текст переводится самым невероятным образом, смысл вашего документа заменяется на нечто невообразимое, фото на веб-страницах не соответствуют подписям к ним и тому подобные несуразности. Наконец, возникает ощущение непроходимой тупости создателей такого программного продукта и желание его удалить и больше никогда не пользоваться.

Но что все-таки это было? Это вы познакомились с одним-двумя-тремя образцами так называемой технологии machine translation , иными словами, столкнулись с МТ-программой. В основу которой положена идея, что если сделать базу данных в виде огромного количества двуязычных пар слов, если добавить к этой базе основные правила грамматики, то можно создать автоматический (следовательно, недорогой) переводчик. И вы увидели воплощение этой идеи. И вовсе не бездарное. На рынке существуют довольно авторитетные компании, с большим оборотом, даже с филиалами в стране и за рубежом, торгующие подобными программами. Бездарно не воплощение, нет, глупа сама по себе идея, будто люди-переводчики – это такие ходячие энциклопедии, которые всего-то еще и правильно глаголы спрягают. Похоже все-таки, что переводчики делают что-то еще, что машины пока делать не могут.

Надо сказать, что не только мы с вами попадали в эту ловушку. Ходят слухи, что люди из корпорации Microsoft, когда их компания выходила на международные рынки, также попытались воспользоваться машинным переводом, ибо не могли взять в толк, зачем платить "бешеные деньги" переводчикам-людям. Было это в начале 90-х и очень быстро закончилось. Microsoft – корпорация, которая деньги считать умеет, но вот руководство там – совсем не глупцы.

Английское слово "translate" имеет не менее 9 значений. Какое из них использовать, решает человек.

В чем же проблема машинного перевода? На самом деле проблем много. Одна из них, что единицы баз данных – это слова. Значение которых в живой речи лишь кажется постоянным, на самом деле смысл слов почти постоянно, хоть и незаметно меняется. Плохое вдруг становится хорошим, какие-то слова исчезают из повседневного оборота, другие меняют свой смысл и т.д. Кроме того, человечество (и даже отдельный народ) делится на различные социальные группы – профессиональные, по интересам, по уровню потребления и т.д. и т.п. И в каждой из таких групп постепенно возникает свой собственный словарь общения. При этом зачастую используются термины из общеупотребительного языка, просто меняется их значение. Вы всю жизнь можете прожить в рамках своей группы и не догадываться, что с точки зрения великого и могучего языка вашего народа, ваша группа (и ее сленг) практически никому особо и не известна. Поэтому толстенные, классические, бумажные словари предлагают обычно немалое количество значений одного и того же слова. Которые надо подставлять в зависимости от ситуации в перевод. А понять, какое именно значение следует подставить, пока может лишь переводчик-человек. Переводчик-машина на такие интеллектуальные действия, увы, еще не способна (и, возможно, сможет это еще очень нескоро).

Вот классический пример ляпсуса при машинном переводе:

(англ. ) Spirit is strong but flesh is weak.

(рус .) Дух крепок, а плоть слаба.

(рус., машинный перевод ): Спирт крепкий, но мясо протухло.

(рус., машинный перевод, вариант 2, Google ): Запах сильный, хотя и импотент.

Однако вернемся к нашему разговору и подведем предварительные итоги. Итак, не только мы с вами, но и весьма серьезный бизнес, когда ему это потребовалось, проявил настойчивое стремление к тому, чтобы удешевить, ускорить и, таким образом, демократизировать переводческий процесс. Однако первая попытка завершилась провалом.

Мы-то с вами, обжегшись, лишь с благодарностью вспомнили своих школьных или институтских учителей иностранного языка и решили впредь опираться либо на свои знания, либо обращаться к специалистам (переводчикам-людям).

А вот серьезный бизнес (имеется в виду, к примеру, тот же Microsoft), вернув переводчикам-людям их право на перевод, озаботился тем, дабы максимальным образом интенсифицировать переводческий процесс и повысить его качество через предоставление переводчикам специализированных программных продуктов. Ибо, в отличие от нас, серьезный бизнес по-прежнему нуждается в успешной международной торговле, а для этого ему необходим высококачественный перевод по разумной цене. В частности, та же Microsoft (а также Adobe, Cisco, Hewlett-Packard, IBM, Nokia, Novell, Xerox) участвовала в создании ассоциации LISA (ассоциация стандартов индустрии локализации), а также выкупила 20% акций тогда еще молодой компании Trados GmbH. Иными словами, серьезный бизнес инициировал наступление эры TM-программ на переводческом рынке, вложив в это свои собственные средства.

Память переводов – специальная база данных для переводчиков. Изначально она пустая и наполняется в процессе работы.

Но что это такое, TM-программы? В ходе первых попыток по локализации программных продуктов на разные языки выяснилось, что при переводе объемных материалов довольно крупные куски текста (например, предложения и даже абзацы) могут повторяться. При этом разные переводчики, разумеется, переводили их хоть немного, но по-разному, по-своему. Кроме того, получалось, что переводчики, таким образом, неразумно тратили свое время и деньги заказчиков. Естественно, возникла идея либо создать, либо финансово поддержать такой программный продукт, который бы "отлавливал" в процессе перевода эти повторяющиеся куски и, дабы переводчик не делал двойную работу, вставлял бы уже сделанный перевод во все места, где он встречается повторно.

Так сформировалась концепция translation memory , буквально, памяти переводов: существует некая база данных, которая изначально пуста, но она заполняется тем материалом, который переводит конкретный переводчик; эта база данных активизируется каждый раз, когда в тексте встречается уже переведенный фрагмент, и автоматически вставляет уже готовый перевод в соответствующие места.

Как показало время, эту идею приняли "на ура" не только серьезный бизнес, крупные корпорации, но и сами переводчики. Которые, как выяснилось, и сами страдали от того, что им нужно переводить повторяющиеся куски, а они не могут вспомнить, как они переводили в прошлый раз, а сделав, наконец, перевод, который им казался самым лучшим, не могли заменить им предыдущие варианты перевода, да и к тому же вскоре этот "самый лучший перевод" банально терялся среди других памяток по переводу.

Таким образом, в довольно короткий срок возник целый рынок ТМ-программ, где знаменитый Trados вовсе не является безусловным законодателем мод, ему "на пятки" наступают такие известные программы как Deja Vu, Wordfast, Star Transit, OmegaT и другие. Сегодня трудно даже утверждать, кого больше, сторонников, скажем, Deja Vu или любителей Trados, однако следует признать, что общеупотребительным стандартом для передачи материалов перевода заказчику является все-таки Trados и его форматы.

Итак, подытоживая, скажем: современный рынок программных комплексов для перевода делится на две группы .

Первая – это программы машинного перевода или МТ-программы (machine translation ). С точки зрения профессионального перевода и серьезного бизнеса, это побочная линия, неудачный продукт, который, впрочем, пока востребован на массовом рынке. Современные МТ-программы оснащены специальным инструментарием, позволяющим профессионалу действительно попытаться адаптировать их к нуждам конкретной группы, однако гарантировать подлинную аутентичность перевода такие программные продукты все-таки не могут. Главная особенность MT-программ – изначально заполненные базы данных (гигантские словари языковых пар).

Вторая группа – это ТМ-программы (translation memory ). С точки зрения обычного любопытствующего пользователя, это практически бесполезный инструментарий. Здесь нет заранее вложенных словарей, базы данных создаются непосредственно в переводческом процессе. ТМ-программы весьма востребованы профессиональными переводчиками, ибо написаны для них и им весьма полезны – могут ускорить процесс перевода, а также повысить его качество. Кроме того, на ТМ-программы весьма благожелательно смотрят представители транснациональных корпораций, который с их помощью намерены уменьшить издержки на переводы.

Программа ТМ Сидхи

Используются следующие сутры :

Дружелюбие
Доброта
Счастье
Сила слона
Бронх (Bronchial tube)
Внутренний свет
Солнце
Луна
Полярная звезда
Трахея
Пупок
Различие между интеллектом и трансценденцией
Трансценденция [и] интуиция
Трансценденция, тончайший слух
Трансценденция, тончайшее осязание
Трансценденция, тончайшее зрение
Трансценденция, тончайший вкус
Трансценденция, тончайшее обоняние.

Сутра "левитации" или "полетная сутра" используется также как и предыдущие сутры:

"Отношение между телом и Акашей - легкость хлопкового волокна" ("Relationship of body and akasha - lightness of cotton fiber")

Сутры начинают мысленно повторять после двадцати минут TM (трансцендентальная медитация). Каждая сутра повторяется дважды (если время позволяет - 4 раза), с 15 секундной паузой между каждым повторением.

После выполнения полетной сутры в течение 5-30 минут нужно отдохнуть в течение 5-30 минут (в зависимости от времени "полетного блока") а затем читаются индусские Священные писания в течение 5 минут.

Пример такого чтения (из 9 мандалы Риг Веды):

Текущая Сома, в самом сладосном и волнующем потоке, истекшая для питья Индры. Всесозерцающий разрушитель Ракшаса шагнул в свое пораженное золотом место рождения, объединенный с деревянной бочкой. Будь щедрым податель богатства, самый щедрый, разрушитель врагов; одари нас притоком богатства. Приносим еду в жертву могущественным богам и дайте нам силу и хлеб насущный. К тебе мы прибываем, O сочащаяся (Сома); тебе только наше поклонение день за днем, наши мольбы к тебе, больше ни к кому

Еще были сутры "невидимости", и т.д. но для избранных и, конечно же, за немалые деньги. В середине 70-х годов Махариши экспериментировал с голоданием, диетой, воздержанием, асанами, пранаямой и, наконец, с "сутрами Правителей" над своими студентами 6-месячных курсов. Правда, сейчас эти сутры не продают, как и многие продвинутые техники ТМ, т.к. при их практиковании явно видно, что их эффективность равна нулю.

Сутры "Правителей"

Сутра

Желаемый эффект

Имя, форма, идея Понимание всех языков (языки людей, животных, священные и т.д.)
Контур тела Невидимость
Три изменения Знание прошлого и будущего
Пять форм Управление элементами - появление, исчезновение и создание любого объекта, а также умение становиться очень маленьким или огромным, невесомость тела, прикосновение к Луне кончиками пальцев, возможность проходить сквозь стены, землю.
Мысли Чтение чужих мыслей

Также использовались более "санскритизированные" сутры: вместо "различие между интеллектом и трансценденцией" использовалось "Буддхи и Пуруша", "трансценденция, тончайший слух" - "Акаша, тончайший слух".