top of page

AI翻訳に関する私見(1)

  • ito017
  • 6 日前
  • 読了時間: 3分

更新日:2 日前

 2016年、Google社がニューラルネットワークを用いた翻訳サービス「Google Neural Machine Translation (GNMT)」を開始しました。GNMTはそれまでの機械翻訳とは比べ物にならないほど自然な訳文を生成して私たちを驚かせました。しかし、当時のGNMTは以下のような課題もありました。


・漏洩:機密漏洩のリスクが高い

・長文非対応:長文に対応できない(原稿が日本語の場合、センテンスの長さが概ね80文字~90文字を超えると訳文が乱れやすい)

・不統一:文書内で用語が統一されない

・幻覚:原文にない単語や数値が訳文に出現する(あるいは、原文の単語や数値が消える)


 2025年6月現在、AI翻訳は大幅な進化を遂げており、上記の問題点の多くが改善されています。


・「漏洩」については、入力原稿をサーバーに残さない有料サービスが複数リリースされました。但し、有料サービスであってもプライバシーポリシー/データポリシーは多様で複雑であり、利用規約が変更されることも想定されるため、重要な機密情報の取り扱いには十分な注意が必要です。翻訳に関する守秘義務の問題については2017年1月のブログ「Google翻訳と守秘義務」もご参照ください。

・「長文非対応」については、大幅に改善されています。最新AIはかなり長い複雑な文も解釈し、妥当な訳文を生成する確率が高くなっています。モデルによっては、長い文を幾つかの文に分割してから訳す場合もあるようです。ただし、「長い複雑な文」は人間の翻訳者でも読み間違うことがありますから、人間に訳させる場合も、AIに訳させる場合も、「長い複雑な文」を原稿に含めないことが推奨されます。

・「不統一」の問題もかなり改善されています。DeepLを始めとする幾つかのAI翻訳サービスでは辞書登録が可能になっています。某AIサービスでは、原稿と共に用語集を事前に提示することで翻訳のブレが減るようです。用語集は翻訳の品質に決定的な影響を与えますので、正しい用語集を準備する必要があります(これが意外に難しそうです)。また、原稿に登場する全ての単語を用語集に含ませるのは困難であり、翻訳のブレの問題が完全に解決されたわけではありません。さらに、稀ではありますが、同一の語を文脈によって訳し分ける必要がある場合もあり、用語集で翻訳を縛ることがかえって不利になるケースもあります。

・訳文における「幻覚(ハルシネーション)」については、ゼロではないものの(2016年頃に比べれば)発生確率は低下していると感じます。ただし、AIの学習は試行錯誤の連続ですから、今後、AIモデルの精度を高めようとしたら幻覚が増えてしまった……ということが何度か起こるかもしれません。実感として「長い複雑な文」の方が「幻覚」が発生しやすいので、やはり原稿に「長い複雑な文」を書かない方がベターだと思われます。


 以上のように、AI翻訳は様々な問題点が改善され、日々進化を続けています。GNMT以前のルールベースの機械翻訳や統計的機械翻訳はプロの現場では「使い物にならない」という意見が多かったです。GNMTの登場により、機械翻訳は「意味を把握するには十分」という評価に変化しました。現在の最新AIの品質は(分野・使い方によっては)既に「経験が浅い翻訳者より優れている」というレベルに到達していると考えられます。2016年12月のブログ「特許翻訳とGoogle翻訳」で書きましたように、特許翻訳の分野はAIが育つための「エサ」が豊富にあるため他の分野に比べて学習が進んでいると考えられます。


 AIが優秀になり、多くの特許翻訳者の仕事はAI翻訳をチェックして修正するMTPE(Machine Translation Post Editing:機械翻訳ポストエディット)に移行すると予想されています。私は、この予想は半分正しく、半分間違っていると考えています。次回のブログではMTPEについての個人的な考えを書く予定です。

 
 
 

Kommentare


アーカイブ
タグから検索
ソーシャルメディア
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square

Copyright© 2016 Ito Translation Office  All rights reserved.

bottom of page