macroscope

( はてなダイアリーから移動しました)

わたしは機械翻訳をどのように使うか

正確な事実を確認していないのだが、「どこかのウェブページの外国語版を作る際に機械翻訳の結果をそのまま使って恥ずかしいことになってしまった」という話を聞いた。

機械翻訳の結果は、そのまま訳文として公開できるものではない。これは現在の技術水準だからというよりも、おそらくいくら技術が発達してもそうだろう。

使いみちを自然科学的記述や取扱説明書など文化の違いの影響が少ないものに限定して、翻訳ソフトウェアの能力を理解した人たちがそれを意識して原文を書く場合に限って、ソフトウェアの出力をそのまま公開して役だつものになるだろう。その原文をどのような言語で書いたらよいかについて、目的を意識した研究が進むことを期待している。

しかし、それ以外の場合にも機械翻訳はむだではない。人が翻訳する手間をはぶくため、あるいは内容を把握するための参考にするためには使える。ただし手間をはぶけるかどうかは使う人の言語能力による。

わたしは英語から日本語への機械翻訳をたびたび使っている。もとが紙の本である場合は、スキャンとOCR (文字認識)と機械翻訳という三重の手間がかかるが、わたしが日本語訳を得たいと思う場合は、英語原文をにらんで辞書をひいて日本語を考えるよりも、三重の手間をかけるほうを選ぶ。このほうが総合能率が上がる気がするのだが、それには気分転換ができるという要因もあるかもしれない。また、わたしが翻訳しようと思う文章は、自然科学または社会科学・歴史などのおもに事実を伝えるものだ。おもに(作者のにせよ登場人物のにせよ)感情あるいは意見を伝えるものや、芸術作品については、機械翻訳を役だてることはむずかしいだろう。

わたしは英語と日本語の両方向の有料のソフトウェアを持っているが、これまで実質的には英語から日本語の向きだけに使っている。ほかに、インドネシア語などいくつかの言語から英語への翻訳を、インターネット上の無料のサービスで使ってみたことがある。

わたしにとって機械翻訳が有効なのは、機械翻訳ソフトウェアの機能がわたしの能力にないわけではないがくりかえすと苦痛であるところを補ってくれるからだ。おもに、文法解析結果の行き先言語(ここでは日本語)での表現と、単語の置きかえだ。

言語の文は、文法構造に従って語を配置したものであるとともに、時間の流れの中に語を配置したものでもある。言語によって語順が違う。翻訳は、文法構造と情報の流れの順序の両方を保つことができない。両方をなるべく生かすことができる妥協点をさぐることが、翻訳の苦しみの主要部分(のひとつ)なのだと思う。

最近変わったかもしれないが、2010年ごろにGoogle translateを使ってみたところ、英語から日本語は使いものにならなかったが、ドイツ語から英語は参考になった。(分離動詞のところでは失敗していたが。) Google translateは文法解析を重視せず、文を時間軸上の単語の連鎖ととらえて類似例から統計的に訳語を推定していると聞いた。語順の近い言語ならばこれで役にたつが、語順が大きく違う言語では悲惨なことになるのかもしれない。

わたしにとって参考になる機械翻訳は、文法解析を優先するものだ。語順は変わるので、情報の流れは不自然になる。わたしは機械翻訳結果を原文と対訳にして両方ながめながら意味を取る。そして、実際に翻訳をめざす場合は、ここでどう妥協するか考える。これは片手間ではできない頭脳労働だが、少なくともわたしにとっては、原文と辞書をにらんで頭脳労働するよりは能率があがる。また、訳文が完成して原文を消せれば文書ファイルの量が半分に縮むのがはげみになる。

わたしにとって役にたっている機械翻訳の機能の第2は単語の置きかえだ。実は、わたしが訳そうと思う文章は、だいたいわたしは辞書をひかずに読める。つまり単語の意味は頭にはいっているはずなのだ。対応する日本語が頭にはいっているとは限らないが、辞書かウェブ検索で見つけることはでき、それでも見つからない新語またはよそのローカル語ならば原語のまま書いて注釈をつけるべきだと判断できる。ただし、たとえ頭の中にあっても、編集中の文書ファイルの適切なところに書き出すのには手間がかかる。この手間を減らしてくれる機械化はありがたい。

ただし、機械が見つけてくれる訳語はまとはずれのこともある。言語間で単語の意味の広がり(W.A. グロータース 著・柴田 武 訳 (1967)『誤訳』でいう「森羅万象の割り方」)が違うのだが、これに計算機ソフトウェアで完全に対応できるとは思えない。いつの世も、人が原文と照らし合わせてチェックすることは必要だろう。例外として、自然科学的事実の記述や取扱説明書などで、専門用語の意味が一対一に対応することがわかっている場合は、訳語の選択を機械にまかせることができるかもしれない。

結局、機械翻訳は、自分で翻訳できる能力をもった人が、その能率を上げるために使うことができる道具だ、ということなのだと思う。

【[2013-09-30補足] わたしは、自分の翻訳文を売り物にしたことは、まだない。自分の翻訳文として公開できるところまで文章を磨こうとしたことはいくらかあるが、多くの場合、それに多くの時間をかけられなくて挫折している。自分が参照するだけの場合は、機械翻訳結果を修正しないまま原文とならべて見ることが多くなっている。この記事はそういう人の感想として受け止めていただきたい。】

- - -

ここで、山岡洋一氏が(ひとつの文章限りかもしれないが)「翻訳のパラダイム」と呼んだ問題[わたしが読書ノートの補足として書いた別記事参照]に行きあたる。

外国語から日本語への翻訳について、日本語としては不自然(「翻訳調」)でも、原文の情報を失わずに日本語の文法に合わせたものがよいとする考えがある。思えば漢文訓読というのはそういうものであり、近代にヨーロッパ言語についても同じ考えかたをあてはめたものだと言えるだろう。旧世代(およそ、第2次大戦前育ち)の人が書いたものにそういう意見がよく見られることを知っていたのだが、最近、自分と同年輩の人が大学教育での言語能力訓練としてはそういう欧文和訳が重要だと主張しているのを見てちょっと驚いた。その人が想定している学問分野は人文系であり、わたしは理科系だから違うということはできるのだが。

わたしは漢文訓読は嫌いだった。漢文音読主義とも言える主張に共鳴した(ここでは声を出して読むという意味ではなく音訓)。【[2019-12-30 補足] むしろ「漢文直読主義」と言ったほうがよさそうだ。】漢文を外国語として、原文の情報の順序をくずさずに理解したいと思った。英語については、たまたま中学で「変形文法」の概念をとりいれた実験的な授業を受けたせいもあるのだが、文の基本構造と、文を変形して別の文の一部にはめこむ操作を中心に理解した。複雑な文が出てくると、単純な文に分解してそれぞれを解釈する。解釈結果を日本語でひとつの文に組み立てることは、命令されればやるけれども、されなければしないですませた。大学院では、専門の基礎にかかわる日本語の教材がまだ充実していなかった事情もあって、英語の文献を毎週読まされたけれども、セミナーではその文献に書かれたことの「意味を説明せよ」という訓練を受けた。「訳せ」ではない。内容をあまりよく理解していない場合にしかたなく直訳を示すことはあったが、それは高く評価されなかった。このようなわけで、わたしは、英語の文章が言っていることを自分が理解するためには日本語になおす必要はない。日本語になおす必要がある場合、中間段階としてまず直訳したほうがよいと思うことは多いが、自分のその能力はあまり訓練されておらず、がんばればできるのだが根気が続かない。そこを機械がやってくれるのは助かる。当然、機械の作業は人間ならばしないようなまちがいもあるが、わたしは、日本語の印刷物の校正経験も、大学教員経験もあるので、まちがいを見つけて修正することはそれほど苦にならない。こういう事情をもつわたしには機械翻訳は役にたつのだが、事情の違う人には役にたたないかもしれない。

- - -

わたしは英語から日本語への翻訳にある会社の有料ソフトウェアを使っている。前には別の会社のものを使ってみたこともあった。どちらがよいか判断できなかったが、たまたま一方に決めてときどき新しい版に更新してきた。このソフトウェアはMS Windows用で、ほかのOSには対応していないようだ。LinuxなどUnix系OSで仕事をしようとしてきたわたしにとって、翻訳は、OCR、世界地図とともにWindowsを手離せない数少ない理由だった。

なお、今使っている版はときどき凍りついて(キー入力を受けつけなくなって)強制終了させるしかなくなることがある。Windowsの管理者でないユーザーで使っているので権限が不足しているのかもしれない(許可を求める画面が出れば許可するようにしているのだが)。あるいは、ウィルス対策ソフトウェアを入れているので、翻訳ソフトウェアの動作のうち何かを危険と判断して止めてしまうのかもしれない。そのほか、ソフトウェアメーカーが予想しないソフトウェアどうしのあいしょうの問題かもしれない。ソフトウェアメーカーのウェブサイトを見ても、わたしが出会った症状に対応しそうなソフトウェア更新情報も、対策方法の案内も出ていない。わたし自身まだ報告していないのでメーカーが気づいていないということなのかもしれない。

このソフトウェアは、文章を文(センテンス)に分解してそれぞれについて文法解析して訳しているらしい。

文章のレイアウトを崩さずに対訳にする機能もあるのだが、それだと訳文の修正ができない。わたしは訳文の修正をしたいので、文章を対訳エディタにとりこむ。するとレイアウトだけでなく段落構造もくずれてしまう。あとで訳文ができあがってから原本と見比べて手作業で段落構造を復活することになる。(段落の位置を示すものをあらかじめはさんでおくという対策はありうる。ただし文への分解の作業のじゃまになるといけない。独立した文をはさんでしまえばよいことになるが、ちょっとめんどうだ。)

対訳エディタにとりこんだ内容を、まず一斉に文への分解と日本語への訳をしてみて、それから文ごとに見て修正していくことが多い。機械翻訳結果の日本語を見て、直観的に不自然だったり、原つづりが残っていたりすると、原文と見比べる。これによってOCRの失敗を訂正できることがけっこうある。(逆に、固有名詞が多いなどの理由で機械翻訳作業からはずした部分については、OCRのまちがいの検出が楽でない。)

文への分解は句読点があるので大部分はソフトウェアまかせでよいのだが、省略をあらわすピリオドがある場合や、文になっていない見出しがはさまる場合など、手作業での修正が必要な場合がある。

文法解析は、わたしが使っている会社のソフトウェアでは正しくできる可能性が高いが、文の構造の一部に長い項目の列挙が含まれている場合などはだれにとってもむずかしい。そのほかでも、ときどき大まちがいがある。「トキバエは矢を好む」([別記事]の最初の部分参照)のようなかんちがいは避けられず、人が修正できることが重要だ。この会社の安いソフトウェア(最新版は知らないが数年前のもの)では文法解析の修正が不可能で、その文については機械翻訳をあきらめるしかなかった。高いバージョンでは修正可能で、助かっている。(値段の差だけ価値はあると思うが、できればこの機能のないソフトウェアが大量に出まわらないようにしてほしいとも思う。) ただし、高いバージョンでも利用者ができることは品詞の指定と語句のグループの指定だ。わたしとしては、それに加えて文法解析そのものを「このグループが主語」というふうにやらせてもらいたい。ソフトウェアが前提とする文法上の概念を利用者に開示することになるので、企業秘密としてまもりたい知識との兼ね合いがむずかしいかもしれないが。

単語の置きかえについては、「英和辞典をひいて第1候補をはめる」ような操作を機械化してくれるだけでも、わたしにとってはありがたい。ただし、世の中一般とは違う訳語が適切な場合には、同じ文書内では一貫して同じ訳語を使ったほうがよいことが多いから、ユーザー辞書登録機能はぜひほしい。科学技術共通用語辞書は役にたつが、それ以外の専門辞書は、わたしの目的には、かえってじゃまであることがわかった。わたしが訳す文書が、辞書を作った人の想定する専門領域とずれているにちがいない。専門辞書の訳語が機械翻訳の際に自動的に参照されるのではなく、利用者による訳語変更の際に候補として表示されるのならば役にたつ。

利用者が機械翻訳を修正した際の訳語選択が、そのあと機械翻訳をさせたとき訳語選択に反映されているのかどうかは、よくわからない。できれば修正の頻度を反映させてほしい。ただし、同じ人が訳すからといって同じ専門領域の文献とは限らない。できれば利用者が文書をグループに分けてそれぞれごとに頻度管理できる機能がほしい。

わたしは原文を残して対訳の形にしているのでがまんできるのだが、固有名詞、頭文字略語、数式などが多い部分は、機械翻訳の結果はわけのわからないものになり、むしろ原文のまま変えずに訳文にはさんでもらったほうがありがたい。わたしが使っている版のソフトウェアでは、「品詞設定」で「原語のまま」を指定することは可能だが、対象をいちいち手動指定しなければならない。語の種類ごとに指定を自動化できるとよいと思う。わたしの場合、固有名詞のうち人名は原つづりのままのほうがよい。(たまたま辞書作成者が知っているものだけかたかなになるのはうまくない。) 頭文字略語は、原則はそのままで、ユーザー辞書登録したものだけ訳され、辞書登録時に参考例が示される、というのがよい。数式や数学記号も、そのように判定された場合は、無変換であるべきだ。

文章中に注の番号がはいっている場合、その位置が(個別の文のうちでの場所は手動で動かさなければならないかもしれないが、どの文についているかは)訳文でもわかるようにしたい。わたしが使っているソフトウェアでは「{1}」 のようにしておくと「{1}」のように出るが、文法解析の中で「{1}」が名詞として扱われているようだ。文法解析上は無視して記号があるという情報だけ訳文に伝えられるとありがたい。前に述べた段落マーカーなどもその扱いができればよいと思う。(たとえばHTMLのタグ <p> </p> などが無変換で出ると決まっていればわたしはそれを入れておくので、翻訳ソフトウェアに段落構造を保つ機能がほしいとは言わなくてすむ。)