macroscope

( はてなダイアリーから移動しました)

わたしは機械翻訳をどのように使うか (2)

【まだ書きかえます。どこをいつ書きかえたかを必ずしも明示しません。】

- 1 -
まえに、[2012-06-03 「わたしは機械翻訳をどのように使うか」]という記事を書いた。そこに書いた、わたしの機械翻訳への態度は、いまも変わっていない。

(ただし、わたしは2015年ごろから、機械翻訳を実際には使っていない。パソコンがこわれて、機械翻訳ソフトウェアを別のパソコンにインストールしたらライセンスが有効にならなかった。おそらくソフトウェア会社に相談すれば有効にしてもらう道はあるだろうが、おっくうになってしまったのだ。しかし、そろそろ、また使いたくなっている。売っているソフトウェアのバージョンもだいぶかわったから、あらためて買ってもよいと思っている。)

- 2 -
翻訳事典』という、年刊の雑誌のようなものが出た。

  • アルク, 2019: 翻訳事典 2019-2020。アルク, 256 pp. + DVD, ISBN 978-4-7574-3312-0.

これには「機械翻訳と人間翻訳者」という記事群があって、次の記事からなっている。

  • 編集部: 機械翻訳の変遷と PE (ポストエディット) という仕事。34-35
  • 高橋 さきの: ニューラル機械翻訳 -- 翻訳者の目で検証してみよう。36-40
  • 井口 耕二: 私が考える「翻訳」 -- 機械翻訳+PE と翻訳の違い。41-43

機械翻訳(machine translation, MT)が発達してきた。しかし、機械翻訳の結果はそのまま翻訳物として出せる水準には達していない。(この特集の記事を書いた人たちの考えでは、将来も達しないだろう。) 翻訳の需要をもつ企業の人たちは、機械翻訳の結果を人が改訂したほうが、全体を人が翻訳するよりも、コストをさげられると期待する。この改訂作業は「post edit (PE)」といわれる[注]。翻訳を職業とする人に、PEの依頼がくることがある。しかし、作業するたちばでは、PEは、原文から直接翻訳するのにおとらない労力がかかるうえに、やる気がおこらない仕事なのだ。これまでの翻訳におとらない結果がほしいのならば、MT+PEは人間による翻訳よりも安くはならない。

(翻訳者は、翻訳の作業の過程で、両言語で1対1に対応する技術用語などの文字列おきかえなどはすでにやっている。これを機械翻訳とはいわない。)

  • [注] わたしは、post edit ということばは変だとおもう。英語の「post」はラテン語の前置詞からきた接頭語だから、「post edit」では「編集の後」になってしまう。「MTの後の編集」ならば「post-MT edit」だろう。 あるいは「後の」にあたる形容詞をつかって「posterior edit」ならばよい。 もっとも、edit もラテン語として正しい形ではなく、英語のなかで editor から逆にできた形だから、ラテン語としての意味にこだわりすぎてもしかたがないのだが。
  • [余談] わたし個人にとっては、「MT」といえば、情報記録媒体の磁気テープ(magnetic tape)である。MTの読み書きに自分の能力の大部分をつかっていた時期があるから、わすれようがないのだ。「PE」はふだんは無意味な文字列にすぎないが、MTといっしょに出てくると、これも情報記録媒体の種類の名まえにあったことを思い出す。(これは「PEディスク」というべきかもしれない。「磁気光ディスク」の細分類だったと思うのだが、PとEがなんの略だったかはおぼえていない。)

- 3 -
わたしが、2でのべた翻訳専業の人の考えに賛成することと、1でのべた自分の態度とは、矛盾するようにみえるだろう。実際に矛盾してはいないのだが、それを説明するとちょっと長くなる。

- 4 -
まず、わたしは翻訳業ではない。

翻訳事典』の高橋さんの文章のなかにも、「何が書いてあるかがだいたいわかればよいという用途」には機械翻訳が使えることもあると示唆しているところがある。

わたしが機械翻訳を使うきっかけは、これであることが多い。(ただし、やってみると、否定や疑問の表現の変換がうまくなくて、真偽が逆の意味にとれることさえある。機械翻訳結果を見て、何が話題になっているかを知るのはよいが、それについて著者が何を主張しているかを知るには別途確認が必要だと思う。)

翻訳業の人は、それまで読んでいなかった文章を短い時間のあいだに全部読む必要が生じることが多いだろう。ときには逆に、くわしく頭にはいっている文章の訳者になることもあるだろう。このどちらのばあいも、だいたい何が書いてあるかをつかむために機械翻訳の助けをかりる必要はなく、それはむしろじゃまだろう。

わたしは、「何が書いてあるかけんとうをつける」ため機械翻訳をつかうことがおおかった。そして、翻訳する気になるものは、自分がいったん読んで紹介したいと思ったものだから、「いったん読む」の段階で機械翻訳をつかうことがよくあった。

そして、2012年の記事に書いたように、わたしは、原文をながめているだけでは、翻訳をやる気が出ない。 (これでは翻訳業にはなれないだろうと思う。) 原文と機械翻訳結果を見くらべて「つぶしていく」ほうがやる気が出る。

- 5 -
翻訳事典』の編集部による記事で、機械翻訳が分類されている。 「ルールベース機械翻訳」「統計翻訳」「ニューラル機械翻訳」だ。ルールベース機械翻訳は、原文の言語の文の構文解析をして、訳文の言語の文に組みたてなおす。「統計翻訳」と「ニューラル機械翻訳」は、文法知識を使わず、文を語の連鎖としてあつかい、両方の言語の大量のデータにもとづいて経験的にありそうな訳文をえらんでいくのだ(とわたしは理解した)。

「統計」と「ニューラル」のちがいは、ちかごろいろいろな対象についていわれる「統計的方法」と「機械学習」[注]のちがいなのだろう。いずれも過去の多数の経験によって、出現頻度の高いものがまた出現すると期待するのだが、「統計的方法」は、経験にもとづいて変換ルールを決めるプロセスと、適用するプロセスを、明確に区別する。「機械学習」は、適用しながら変換ルールを改訂していく。

  • [注]「機械学習」は、人の学習を近似しようとしたものではなく、「経験による変換ルールの改良」が比喩的な意味で「学習」に似ているからできた用語なのだろう(と、わたしは思う)。 (「機械翻訳」のほうは、まだ成功しているとはいいがたいものの、人による翻訳と同様な結果の出る仕事をめざしていると思われるのだが。)

わたしが使う気になる機械翻訳は、「ルールベース」のものにかぎられる。「統計翻訳」「ニューラル機械翻訳」を使う気はおこらない。(ルールベースの翻訳ソフトウェアをわたしがもっていない言語について、辞書がわりに、語句のだいたいの意味をつかむために、ネット上の「ニューラル」型であるらしい機械翻訳で、英語に変換してみることはある。)

使ってみると、ルールベースの機械翻訳は、構文解析に失敗することもあるが、失敗したかどうかは、(わたしが)訳文を読めばわかることが多い。失敗したら、もし構文解析のやりなおしができればさせてみるが、あきらめて、人による翻訳にうつることが多い。自然言語には多義性があって、形式的に正しい構文解析が複数あることもある。そこで、構文解析の全自動化をめざすのではなく、人が選択する形にしながら、それを手軽にできるようにソフトウェアを発達させるのがよいと思う。失敗をへらすのではなく、失敗からの回復の能率を高めるような改良をのぞむ。

論理的にほぼ同じことをあらわす構文の語順がちがう言語のあいだの機械翻訳で、複雑な文をあつかうとき、構文解析に成功してそれにもとづいて訳文を組みたてると、情報の出現順序がおおきくかわって、わかりにくくなることがよくある。そこで、わたしは、文がさすものごとを変えないように注意しながら、訳文の構文をかえて、情報の出現順序を原文にちかづける努力をする。このような「PE」ならば、わたし個人にとっては、やる気になれる作業なのだ。

なお、ルールベースの機械翻訳ソフトウェアは、わたしの知るかぎり、文章を 文(sentence)単位で処理して、文と文のつながりを考慮した処理をしない。これはこの方法の弱点なので、わたしはこの点に注意して「PE」をしないといけないと思っている。

「統計翻訳」や「ニューラル翻訳」の結果は、構文をとりちがえていたり、文字列ではあっても構文になっていなかったりすることが多いだろう。そういうものの「PE」をやる気はおこらない。それよりは原文から直接に人が翻訳したほうがましだ (それもわたしにとってはめんどうなのだが)。