macroscope

( はてなダイアリーから移動しました)

わたしは異体字をまとめたい (「包摂」したい)

【まだ書きかえます。いつどこを書きかえたかをかならずしも明示しません。】

- 1 -
漢字は、全部でいくつあるのか、はっきりしない。それはおもに、同じ字というべきか、ちがう字というべきかがわからないことがよくあるからだ。

たとえば、自分のみょうじにふくまれた字が、「高」ではなく、いわゆる「はしご高」であるという人がいる。「崎」ではなく「立」がふくまれた字だと言う人がいる。わたしは、そのような区別をなるべくしたくない。本人からぜひ区別してほしいとたのまれたときにはすることがあるけれども、そうでなければ、「高」「崎」とかいてしまう。

さまざまな文書をディジタル化してあつかう際に、字体がちがうかぎりはなるべく区別して記述したいと考える人がいる。語学、文学、歴史学、哲学などの専門家に多いとおもう。文書の体裁をふくめて研究の対象としている人や、字体の似た字との書きまちがい・読みまちがいの可能性を追求する人が、そのように考えるのは当然だろう。

しかし、わたしも、過去に書かれた文書をディジタル化してあつかいたいという意欲をもっているのだが、その際には、字体がちがっても、同じ字の異体だとおもわれるものは、同じ字種として (同じ文字コードで) 記録したいと考えている。それは、ひとつには、たくさんの文書ファイルを文字列で検索したい、しかも、異体字のグループを指定するようなてまをかけずに、単純な文字の一致によって検索したいと思うからだ。また、文書テキストを入力する際や校正する際に、異体字を区別することに気をつかわずに、作業時間あたりの文字数をかせぎたいからだ。

- 2 -
異体字の問題は、複雑な歴史をせおっている。わたしはそれを専門的にしらべてはいないが、しろうとなりの理解にもとづいてのべておく。

手書きの時代には、楷書だけでもさまざまな異体字があるうえに、行書、草書もあった。

近代になって、活字によって字体の事実上の標準化がすすんだ。原則として、康煕字典の代表字体が「正字」とされた。しかし、手書きでは、「正字」は画数がおおいから、さまざまな略字が許容された。

第二次世界大戦後の日本で「当用漢字」とその「字体表」がさだめられた。そこで「新字体」として、ある種の略字が公認された。(中国の「簡体字」も、具体的な略しかたはちがうことがおおいが、おおまかにいえば同様なうごきである。) 当用漢字が標準とされた時代の印刷物では、当用漢字にふくまれた文字を「新字体」、そのほかの文字を康煕字典体で書くのが正しいとされたようだ。活字ならばその字体だけを用意しておけばそうなるが、手書きではそれぞれの字が当用漢字表にふくまれているかをおぼえていないのがふつうだから、その規則が徹底できるはずはない。新字体はすでにある略字の習慣を採用したものだから、その略しかたを当用漢字以外にも適用する人が多かった。たとえば「しんにょう」の点は、当用漢字ではひとつ、それ以外はふたつと区別せず、点ひとつで書く人がおおかった。

漢字の JIS 規格「JIS C 6226」(のちの「JIS X 0208」) が1978年に制定され、1983年に改訂された。1983年版では、当用漢字以外についても、当用漢字の新字体のような略字の形をひろく採用した。その結果、 JIS準拠の機器 (プリンターなど) どうしのあいだで、字体のくいちがいが生じてしまった。新字体 (当用漢字字体表の字体と、その略しかたを当用漢字以外にも拡張して適用した字体) と旧字体 (康煕字典体) の両方が JIS に採用されていたばあいは、文字コードと字体との対応が、新旧JISで逆になった。一方が採用されていたばあいは、同じ字が、旧JISの機器では旧字体、新JISの機器では新字体で表示されるようになった。

役所の戸籍業務がしだいに電算化されていった。あたらしく名まえをつけるときにつかえる字は、当用漢字よりは拡張されていたものの、きびしい制限がかけられていた。しかし、すでに (紙の) 戸籍簿につかわれていた字は、こまかく区別するように、文字コードがふやされていった。

文字コードでは、異体字を区別したばあいも、まとめた (「包摂」した) ばあいもある。その原則が記述されていなかった。JIS X 0208 については、1997年の改訂の際に、包摂の基準が明文化された。しかし、すでにきめられた文字コードは変更されなかったから、なにを区別しなにをまとめるかの不統一は解消されなかった。

JIS X 0208 にふくまれない文字のコード表 JIS X 0212、そして JIS X 0208 と 0212 の両方をふくむコード表 JIS X 0213 がつくられていった。しかし、あまり普及しなかった。世界の多くの言語の文字を収録した Unicode がつくられ、ISO 10646、JIS X 0221 としても採用された。そこには JIS X 0213 にある字がふくまれた。日本語圏のおおくの人が電子機器でつかえる文字は、JIS X 0208 の範囲 (および機種依存の文字) だった時代から、Unicode の時代にかわって、おおきくふえた。

Unicode で同じコードであっても字体を区別する必要が生じることがある。そこで IVS という補助コードがつかわれるようになった。日本であらたに需要が生じた異体字は、Unicode への追加でなく IVS による対応がふつうになった。

どの異体字のくみあわせが、JIS X 0208 の範囲で区別されているか、Unicode で区別されているか、IVS で区別されているかは、文字コードをきめる人にいつ認識されたかという、文字のがわからみれば偶然的な事情によっている。

- 3 -
わたしがちかごろぶつかった例は「真」という字だ。当用漢字の字体は「真」、康煕字典体は「眞」で、JIS X 0208 には両方がふくまれている。

- 3A -
真鍋 淑郎 さんの名まえが、2019年のノーベル賞受賞で、ひろく報道された。そこでは「眞」という字がおおくみられた。しかし、わたしは、ずっと、「真」の字をつかっており、そのほうがよいと思っている。

1980年代に見た本人の手書きの字体は「眞」のような形だった。しかし、日本語の著作物 ( 岩波書店の『科学』に 1977年, 1985年にのった文章など) の著者名ではいつも「真」だった。本人が印刷物では「真」でよいとしてきたにちがいないのだ。

ちかごろ文献検索してみると、ノーベル賞報道以後の記事のほか、2013年の『学士院紀要』の文章の著者名で「眞」の字がつかわれているが、それよりも古いものはいずれも「真」だ。(ただし印刷物では「眞」となっていても目録入力者が「真」とした可能性はある。)

- 3B -
「真」の字は、わたしの父の名まえにもふくまれていた。1960年代、会社の活字文書や和文タイプ文書ではいつも「真」という字体だった。父自身やまわりの人が手書きでどのような字体をつかっていたか、わたしはおぼえていない。ながらくわたしは父の名まえを「真」の字で書いてきた。ところが、2000年以後に、「真」と書いたら、戸籍に「眞」という字がつかわれているからそれにあわせろといわれた。

実はもうすこし複雑な事情がある。父がなくなって相続の必要で戸籍謄本をとったとき (この制度はなくしてほしいのだが)、確認できた。父と母が結婚したときの戸籍は手書きで、そこでの「真」の字の字体は、「真」と「眞」のいわば中間で、上のほうは「十」または「ナ」のような形であり「ヒ」のような形ではないのだが、下には 「L」のようなかぎ型がある。その後、本籍地をかえたとき、「眞」とすると言ったら、とおったらしい。電算化されたときに「眞」となり、異体字のことはわすれられた。もし、「真」でも「眞」でもない異体字で登録されていたら、戸籍筆頭者として父の名まえを書く必要のある家族にとって、めんどうなことになっただろう。

- 4 -
わたしはなるべく包摂したい。
たとえば 「澤」と「沢」は包摂したい。(同じ人名や地名が「沢」と書かれたり「澤」と書かれたりすることがあまりに多く、いっしょに検索にかからないと不便だ)。

しかし、包摂のいきすぎはまずいと思うこともある。
たとえば . . .

  • 「雲」と「云」、「葉」と「叶」は、中国語では包摂してよいが、 日本語ではそうはいかない。
  • 「闘争」が手書きで「斗争」と書かれたことがある。だからといって「闘」あるいは「鬪」と「斗」を包摂するのは (日本語では) いきすぎだろう。しかし「闘」と「門がまえに斗」とは包摂してよいと思う。
  • 年齢の「歳」が「才」とかかれることがあるが、「歳」と「才」の包摂はいきすぎだろう。