「いわゆる「AI」と「AI chat bot」について、ひとりの大学教員の暫定的判断」に関連するメモ

【まだ書きかえます。どこをいつ書きかえたか、かならずしもしめしません。】

- 1 -
2023-04-08 づけの記事 [いわゆる「AI」と「AI chat bot」について、ひとりの大学教員の暫定的判断] の記事のつづきにかきたすつもりだったのだが、日数がたってしまったので、別のブログ記事にする。「暫定的判断」の記事を書いたとき背景として考えていた、いくつかの別々の論点を列挙したもので、まとまった結論はない。

- 2 -
いまどき (2010年代ごろから) 「人工知能」または「AI」ということばが、ほぼ「機械学習」と同じ意味につかわれることがおおくなっている。わたしはこれにはどうもなじめない。「人工知能」ということばがそれとはちがう意味でつかわれていた記憶がいきのこっているからだ。そして、おそらくこれから10年ほどすれば「人工知能」が「機械学習」をさす時代はおわるだろうと予想するので、いまの流行にのりたくないのだ。

1960年代、わたしはこどもだったから専門的な意味はわからなかったが、「人工頭脳」ということばが、「電子計算機」とだいたいおなじ意味、あるいは電子計算機が (当時の) 将来発展したらもつだろう能力をさしてつかわれていた、という記憶がある。そのとき「人工知能」という表現もあったか、あったとしてそれがさすものが「人工頭脳」と同じだったかちがっていたかは、知らない。

1980年代、日本語圏の出版物に「人工知能」ということばがよくみられた。「第五世代コンピュータ」という研究開発プロジェクトがあって、それは人工知能を実現するための道具とされていた。そのころ想定されていた「人工知能」の全体ではないだろうが重要な部分として「エキスパートシステム (expert system)」というものが発達することが期待されていた。わたしの理解では、それは、専門家の判断のうち定型化した部分を計算機によって自動化する (それによって、専門家のあたまを定型化しにくい課題にふりむける) ための道具だった。専門家の判断の例としては、医者による診断や、法律家による法律のどの条項が適用できるかの判断などが考えられる。そのような判断には、たくさんの基準による場合わけがからみあうので、論理演算のくみあわせでなりたっている問題を速くとくことができれば、人のあたまの負荷をへらせるだろうと期待されていた (とわたしは思うのだが、誤解しているかもしれない。)

エキスパートシステム型の道具はいくつかできたとおもうが、それが人間のはたらきかたを大きくかえることにはならなかった。この時代の「人工知能」は期待した効果をあげなかったのだと思う。そして、「人工知能」ということばがはやらない時代が10年以上つづいたと思う。

2010年代、「機械学習」の研究開発がさかんになった。そして「人工知能」「AI」が「機械学習」とほぼ同じ意味につかわれることがふえた。

そうなるまで、わたしは、「機械学習」という文字列を見たとき、「人が学習するのを機械で支援すること」か、「人がものごとを学習するしくみをくわしく分析して、それを機械でシミュレートすること」のいずれかを思った。どちらでもない意味でつかわれていることを知って、おどろいた。

わたしはいまどきの「機械学習」をしっかり勉強していない。その入門書をながめたかぎりでは、「経験式」や「統計的モデル」をつくってつかうことと、だいたい同じことのように思える。ただ、従来の経験式や統計的モデルでは、係数を決める段階と適用する段階を明確にわけ、それによって方法の検証がしっかりできるようにしている。「機械学習」では、モデルを適用しながら係数を修正していくことがある。そうしたほうが成績がよくなるように思えるのだが、ほんとうによくなったかの判定はむずかしくなる。

【ただし、いま話題になっている、いわゆる chat bot では、そのひとつの商標である chatGPT の P が pre-trained であることにみられるように、適用の段階ではあらたなデータを学習することによるモデルの修正をしないことにしているらしい。そうすると、わたしの用語でいえば、モデルをつくる段階でやっていることは機械学習だが、つかう段階でやっていることは機械学習ではない (機械学習の成果を利用することではある) のだろう。】

- 3 -
わたしは 1990年代からパソコン上の機械翻訳をいくらかつかっていた。それは、文法解析を重視するものだった。2010年代ごろから、機械学習にもとづく機械翻訳のオンラインサービスがいくつも公開された。わたしは、手もとの辞書ですまない単語の意味を検索するためにオンラインの機械翻訳を利用することはあるけれども、英語の文章を日本語におきかえようとするときなどは、機械学習によるものではなく文法解析を重視するものをつかいたくなる。

人間の言語の文は、時間1次元にならんだ語の列でもあるし、文法にしたがって語がくみあわされた構造でもある。英語と日本語のようなちがった言語のあいだの翻訳では、時間順と文法構造の両方をたもつことができないことが多い。ひとまず、ひとつの文 (sentence) を訳すばあいを考えると、わたしは、まず文法構造をたもった変換をしてみて、それがわかりにくければ文法構造はちがうが文の意味はかわらない表現をさぐる。そのとき時間順も参照するけれど、それは副次的情報だ。いまどきの機械学習による機械翻訳は、文を時間順の語の列としてあつかい、文法解析 (たとえば否定文かどうかの判断) を軽視しているようだ。それはわたしがつかいたい道具ではない。

- 4 -
「人工知能」という表現がよいかどうかはともかく、人間の頭脳労働のうち機械化できるところを機械化するための道具づくりはしたほうがよさそうだ。その方法として、機械学習が有効なこともあると思うが、努力をそこに集中するべきではないと思う。

経験式や統計的モデルをつくってつかうならば、モデル構築・係数決定の段階と応用の段階を明確にわけたほうがよいこともある。とくに成功・失敗の検証をしっかりやりたいばあいはそうだろう。そのようなやりかたまで「機械学習」にふくめてもよいのかもしれないが、旗印は「機械学習」よりは、たとえば「データサイエンス」のほうがよいと思う。

また、論理演算も、1980年代にあきらめたことがいまの計算機ならばできる可能性もあるので、また重視するのがよいだろうと思う。

ただし、論理演算だけを速くしようとしたのはうまくなかった。わたしは、科学哲学のほうからその問題に気づいた。わたしはポパー (Popper) の影響をうけて、論理による思考が科学の基本だと考えていた。「すべての A は B である」という命題は、A であって B でないものがみつかれば反証されるのだ。それからクーン (Kuhn) の『本質的緊張 (Essential Tension)』という本 [読書メモ] を読んで (ほかにもいろいろなきっかけがあったが)、科学者集団のなかで反証をはじめとする論理的議論がなりたつためには、なにが A でありなにが B であるかといったものごとの分類について集団のメンバーどうしの認識がだいたい一致している必要がある、ということに気づいた。いま「機械学習」のために開発されている方法を、この「分類の共有」にふりむけたうえで、論理演算とくみあわせれば、科学的思考をたすけることができるだろうと期待する。

ただし、分類は、とくに人に適用すると、差別につながるおそれがある。悪いことをしていない人が、悪いことをする人がもつ属性を共有することを理由として、排除されるおそれがあるのだ。機械による判断をそのまま社会的意思決定にせず、人が介入することが必要だろう。

- 5 -
ちかごろのいわゆる AI chat bot は、いわゆる LLM (large language model, 大規模言語モデル) にもとづいたものだそうだ。わたしはそれがどのようなしくみなのか、よく理解していない。

ともかく、それは、過去に書かれた大量の文章を記憶していて、問いに応じて答える。問いの疑問文や命令的依頼文を解釈したり、答えの文を構成する程度の、文法処理はしている。しかし意味の判断はほとんどせず、類似性や同時出現頻度にもとづいた判断をしているらしい。

AI chat bot (たとえば chatGPT 3.5) は、的確なこたえをすることもあるが、とくに人名などの固有名をふくむ問いのばあい、ありそうな架空の人物や文献をこたえることがある。(意図的に偽の命題をつくっているわけではないようなので「うそ」とはいいがたい。関係者は hallucination という。)

このまま LLMが流行し、人びとが LLM の出力をインターネットに置くと、インターネット空間は真偽不明の大量のテキストで充満するだろう。LLM chat bot の流行は 1けた年でおわるとおもうが、その時代は、インターネット空間の情報の平均の質が低下した時代として思いだされるだろうと思う。

- 6 -
大学教員として、学生にレポートを書いてもらう課題をだすときには、当面、「chat botを自分の作業でつかうのはよいが、その出力をそのままレポートに入れることは禁止する」としようと思っている。

しかし、とおからず、それではすまなくなると思う。つぎの段階では、「chat bot 出力をふくめてもよいが、どの部分がどの chat bot の出力であるかを明示せよ」としたい。chat bot 出力を利用した部分をなんらかのかっこでくくり、その最初に一定の文字列をいれるようにするのだ。その「一定の文字列」は、人が書く文章に出てきそうな単語ではまずい。たとえば「chatbotgenerated」(途中に空白なし、大文字・小文字の変更はみとめる) とすれば、その文字列自体を話題にする文章を例外として、偶然ひっかかることはさけられるだろう。

人が chat bot 出力をいくらか変更しながら利用したばあいは、単純な引用とは区別して、目印の文字列をかえるべきだろう。長すぎるとおもうが、かりの案として「chatbotgeneratedandmodified」としておく。

- 7 -
一般社会の chat bot 利用にも、なんらかの regulation (「規制」ではないかもしれないが) が必要だろう。

Chat bot の出力の側では、学術論文に見えるものや報道記事に見えるものを書きだすときは、chat bot 出力であることを明示すること (たとえば上の6節で考えたように)。

入力側では、まず、ユーザーが chat bot との対話で、個人情報でも職業上の情報でも秘密にすべきことを入力することをためらわせるようにするべきだろう。また、すくなくとも著作権が有効なテキストは、ユーザーが入力するときにも、LLM のなかにたくわえられたときにも、出典情報をともなっているべきなのだが、それをどのように実現するかは難題だ。

また、インターネットをクロールしてデータをとるばあい、どのようなサイトはクロールしてよいがどのようなサイトはいけないという規範も必要だろう。

macroscope

( はてなダイアリーから移動しました)

「いわゆる「AI」と「AI chat bot」について、ひとりの大学教員の暫定的判断」に関連するメモ