Shiki’s Weblog

梅棹式表記法のための日本語入力システムをかんがえる(その2)

2017/04/21 #梅棹式

※ 今回は表記の実験もかねて、です・ます調ではなく、だ調でかいています。

　今回は、前回にひきつづいて梅棹式表記のための日本語入力システムについてかんがえてみたい。現在主流の方式は、まずよみを入力して漢字かなまじり文に変換をして、本文中に挿入していく、という方式だ。しかし、梅棹式のようなひらがなのおおい文章では、よみを入力して、けっきょくひらがなに変換(確定)して入力していくということになって能率がよくない。

　そのため前回は、よみを入力して漢字に変換しながら本文中に挿入するのではなく、入力ずみのひらがなを漢字に置換するという方式(置換変換)を実際にためしてみるところまですすめた。置換変換では、タイプしたひらがなは本文中に直接入力されていく。漢字にしたい単語があれば、その単語の末尾で[変換]キーをおす。そうすると、IMEは、カーソルの位置から前方に本文中のひらがなをよみこんでいって、辞書からみつけだした最長一致する単語に置換する。よみを漢字に変換して本文に挿入するのではなく、本文中のひらがなを漢字に置換する、という点がおおきなちがいだ。実際にためしてみると、なかなか、つかいがってがよいことがわかってきた。

文節変換は小学生にはむずかしい

　前回は日本語の表記をユーザーが制御する、という観点から現在主流の文節変換方式については考慮しなかった。文節変換の歴史はふるく、日本語ワープロとしてはじめて商品化されたJW-10は、文節を指定して漢字かなまじり文に変換する方式をすでにサポートしていた。これは天野真家さんの研究による部分がおおきい。

　しかし「文節」という概念は小学生ではならわない。中学生になってはじめてならうのだそうだ。しかも、橋本文法による文節という概念をそもそもおしえるべきなのかどうかさえ、国語の先生がたのなかでも意見が統一されているわけではないらしい(『国語の授業と日本語文法』, 百留康晴, 2011)。

　JW-10には文節指定モードのほかに、もうひとつ漢字指定モードというかな漢字変換モードが用意されていた。その理由の1つとして、『「文節」というような専門用語を一般の使用者に理解させる困難を回避できる』という意義をのべられている。漢字指定モードでは、「くうきはきたいです」という文を入力するとき、

[漢字]くうき[ひらがな]は[漢字]きたい[ひらがな]です。

のように入力する。ちなみに、前置の[漢字]キーの操作をなくすと、キー操作は置換変換とおなじになる。

　富士通のワープロOASYSも、当初は文節変換ではなく、よみの単語(熟語)への変換とひらがなへの無変換をくみあわせた方式をとっていた。「くうきはきたいです」という文を入力するときは、

くうき[変換]は[無変換]きたい[変換]です。[無変換]

のように入力する。これも、[無変換]キーの操作をなくすと、キー操作は置換変換とおなじになる。

　どちらの方式も漢字にするか、ひらがなにするかの決定は完全に著者にまかされている点は興味ぶかい。文節変換の技術を先行して確立していたにもかかわらず、JW-10に漢字指定モードも用意したのは、この点を意識してされていたことがかかれている。

　置換変換は、tsf-tutcodeやuim-tutcodeでは後置型変換というように、漢字のはじまりの指定をなくし、かわりに[変換]キーがおされたときのカーソル位置から前方に最長一致で単語変換をするものとみてもよいようにおもう(より高度な解析をおこなってもかまわないが)。おなじ例文を入力するときのキー操作はつぎのようになる。

くうき[変換]はきたい[変換]です。

　この方法で単語のくぎりが想像以上にうまく判定でき、結果的に不要になった確定操作もふくめてキー操作の回数がへっているのが、梅棹式表記による置換変換のあつかいやさにつながっているようにおもう。和語の用言も漢字にする、ということだと、「はきたい[変換]」から「履きたい」に変換される可能性がでてくるが、梅棹式表記ならその可能性はない。

　じっさいのところ、小学生は文節変換をできるのか、ということについては、

「よく行われている変換のタイミングは、字種の変わるところです。例えば、漢字からひらがなに変わる箇所です。なぜか、ひらがなから漢字になるところでは変換しません。」- 『変換のタイミング/日本語変換のコツ,小学校でのパソコン授業』

と、情報教育アドバイザーの広田さち子さんがかかれている。置換変換方式で[変換]キーをおすタイミングは、小学生の直感ともわりとちかいようだ。これを文節変換のIMEでされると誤変換になってしまう。

そのほかの可能性

　もうひとつ、小学生たちにもつかいやすいとおもわれる漢字かなまじり文の入力方式は予測変換だろう。文を入力しながら、目的の単語がでてきたらそれを選択して入力していく方式で、文節のことは、やはりかんがえなくてよい。ただ、この方式でも、予測されてでてきた候補のなかに目的の単語がなかったときには、けっきょく変換操作が必要にある。また、つねに画面の候補をみながらことばをピックアップしていく、という作業が必要で、おもいついたことなどを一気に入力してしまいたい、といった場面ではむしろ面倒なようにもおもう。置換変換でも予測変換は併用できるので、このあたりはどちらもうまくつかえるようになっていると、よいのかもしれない。

1音の動詞は直接キーボードから入力する

　梅棹式で和語の用言で漢字をつかってもかまわないのは、1音の動詞だけだ。しかも、漢字をつかわなければ意味を判別しにくい場合にかぎられている。「うむ」は「生む」と「産む」をつかいわけることがあるけれども、漢字をかきわけないと意味が判別しにくくなるということはない。梅棹式ではこういった和語ではおなじものを漢語に翻訳するかのような感覚的なものは、すなおにひらかなで「うむ」とかくようだ。

　梅棹さんが例としてあげているのは、「切る」と「着る」のようによみはおなじだけれども意味に関係のない1音の動詞だ。ほかにも「買う」と「飼う」のようなものがおもいつく。「さかなをかいたい」という文があったときに、これが「魚を買いたい」なのか、「魚を飼いたい」なのかは、前後の文脈がなければ判断することはできない。最新のかな漢字変換エンジンでもこういった部分は誤変換をすることがあるようだ。

　つまりこういった1音の動詞は、よみから漢字に変換する方式ではどうしても誤変換がさけられない場面がでてくる。だからわざわざ梅棹式でも漢字をつかうことがゆるされているのだろう。もしキーボードで直接目的の漢字を入力できれば、誤変換の問題はさけることができる。そうはいっても、こうした漢字がおおいようだとむずかしくなるのだが、梅棹式でじっさいに必要なのは、以下のような動詞に限定されるようだ。

いる射・(入)
うる売・(得)
える得・(獲)
おう負・(追)
おる織・(折)
かう買・飼
かく欠・(書)
きる切・着
たつ裁・(断)
とく解・説
にる似・煮

　このなかで括弧のなかにある漢字は通常はひらがなでかいてしまう。けっきょく漢字でかかないといけない場面のでてくる1音の和語の動詞はあまりないようなのだ。これくらいなら容易にキーボードから直接漢字で入力することができる。たとえば、かな配列の場合は、\キーを前置キーとしてつかい、

\ き → 切
\ [Shift]+き → 着

といった具合に入力する。「か」は「買・飼・欠」と3文字あって、シフト面が1つだとおさまらないので、

\ か → 買
\ [Shift]+か → 飼
\ け → 欠

といったぐあいに連想しやすい「け」に「欠」をわりあてている。(親指シフトのようにシフト面が2面あるような配列なら、「欠」も「か」にわりあてる。)

　プログラミング言語でも、\nで改行をあらわしたり、\tでタブをあらわしたりする言語がある(エスケープシーケンスとよばれている)。上記のような入力方法は、直接入力可能な漢字の数はかぎられるものの、漢直方式のなかでもおぼえやすいものだとおもう。

　なお、梅棹さんは「まず漢字の訓よみ廃止を」と『現代日本文字の問題点』(1969, 梅棹忠夫著作集18『日本語と文明』のなかに収録されている)のなかでかかれている。一般論としても、よみやすい文章をかくためには、漢字の訓よみをどこまでつかうかは意識しておくべきことのようだ。

　山田尚勇さん(1930-2008)は、「訓読みのものは教育漢字だけにしてあとはひらがなにする」という案もしめされている。NHKでも、複数の調査から「訓読みの和語」については、かな表記を好む傾向があることをつかみ、常用漢字表の記載にとらわれず、「弄(もてあそ)・罵(ののし)・遡(さかのぼ)・綻(ほころ)・貪(むさぼ)・嘲(あざけ)・蔑(さげす)」といったよみかたのむずかしい訓よみの漢字は「かな優先」という原則をきめたことが報告されている。

モードレスな日本語入力

tsf-tutcodeではその目標のひとつに、

「モード無しで後置型変換を基本とするInputMethodにすることを目指しています。」

ということがあげられている。現在の標準的な日本語入力環境では、ふつうは以下のような3つのモードがある。

直接入力モード
よみ入力モード
かな漢字変換中モード

　モードレスというのは、こういうモードをなくしていこう、ということだ。

　tsf-tutcodeやuim-tutcodeをつかった置換変換では、ひらがなは、つねに直接入力になるので、「よみ入力モード」がなくなっている。そのため、誤変換してしまったときでも、ワープロやテキスト・エディタの「元に戻す(Undo)」をつかえば、もとのひらがなにもどすことができて、IME専用の特別なキー操作は必要なくなっている。モードレスのよさはこういった部分だ。

　ここまでくると、「漢字変換中モード」もなくしたい、とおもうようになってくる。画面表示については、選択範囲の表示とくみあわせてアプリ側に完全にまかせてしまうような実装もおもしろいようにおもう。イメージとしては、

生きがいろん

というところで[変換]キーをおしたら、

生き概論

のようになり、「概論」の部分が選択されていて、カーソルは選択範囲のひだりはしに移動している、というような方法だ。ここでShift-→をおすと、選択範囲がちいさくなって、

生きが異論

とかわって、さらに、もう1回Shift-→で、

生きがい論

となる。選択範囲をちいさくする方法が、通常の編集時とおなじになっている、という点がだいじな部分だ。この方法では、[変換]キーをきっかけとしてつくられた範囲選択中に文字キーがおされたら、置換ではなくて、範囲選択のとりけしと、文字の追加という動作になっていてほしいとおもうが、こういったことはIME側で制御できるのではないかとおもう。

　英文のテキスト処理でも、挿入モードと置換モードをどうとりのぞくか、というのはもっともむずかしく、すぐにはこたえがみつからなかった("User Interface: A Personal View", Alan Kay, 1989)、というくらいなので、きちんと実験ができるとよいとおもう。どちらかというと、プログラムがシンプルになるという部分がおおきな利点になるのかもしれない。

まとめ

　置換変換と梅棹式表記をつかうようになってまだ3週間弱といったところなのだが、じつはすっかり気にいってしまっている。一番の理由は、わざわざひらがなのよみを入力してひらがなに変換(確定)するというムダな作業をしなくてよいからだとおもう。梅棹式表記とあわせて、従来の文節変換よりも単純にかんたんで能率がよいように感じられる。

　置換変換については、小学生のときからつかう入力方式としても、現行の文節変換方式よりもよいのでは、ということをのべた。日本人はITリテラシーのあるひとが他国よりもすくない、ということがいわれる。ただこれはITのリテラシーではなくて、キーボードをつかって作文をする、というもっと基本的なかきかたのリテラシーをもったひとがすくない、という風にとらえるべきだとおもっている。

　リテラシーをもったひとをふやすには、ただ教育の時間をふやすのではなく、より容易にリテラシーをみにつけられるようにシステムをかえていくことがだいじなのだろう。日本人のよみかき能力は、戦後まもなくのリテラシーをもっている日本人は6.2%という状況から、現在は世界のトップ10にはいるほどにたかまってきた(コンピューターの操作をのぞいては)。これは、今のひとが明治・大正時代や戦前のひとよりも単純によみかきができるようになった、というようなことではなく、言文一致運動や漢字制限といった日本語の平明化の努力がみのったものだとおもう。

　明治から昭和にかけて事務のカナモジ化をおしすすめた伊藤忠兵衛さん(1886-1973)が、大正時代に小学校を卒業して入社してきた工員が100%よめない、とかかれた漢字は「練篠、糊槽、綜絖、梭、筬、杼、ナド」(『呉羽紡績30年』)で、これらは今でもよめないひとがおおいのではないだろうか。そういった漢字を安易につかってしまうことを年月をかけてあらためてきたことが、リテラシーをもったひとがおおい今の日本につながっているのだとおもう。ちなみに、杼(ひ)はシャトルのことだそうで、宇宙船ということばがよくつかわれているところをみると、大正時代ならひょっとしたらスペースシャトルも宇宙杼とかかれていたりしたのかもしれない(そしてよめない)。

　脱線してしまったけれども、小学生でも容易にキーボードをつかって作文をできるようなレベルまで、キーボードだけでなく、IMEなどもふくめて日本語入力システムそのものをよりかんたんなものにかえていく研究はますます必要になってきているようにおもう。

　また今回は、1音の動詞の入力方法についてものべた。これらは、かな漢字変換方式では誤変換につながりやすい漢字でもあり、できるかぎり簡易にした漢直方式をとりいれてみた。必要な文字数がそれほどおおくないこともあり、漢直をつかうのが適している場面のように今はおもっている。まだしばらく実験をつづけていく予定だ。梅棹さんなら、これらの漢字もつかわないですめばその方がよいといわれるにちがいない。

　日本語の表記をかんたんには制御しにくいワープロの文節変換方式が普及してきたことで、戦後までの50年にもおよぶ日本語の平明化の努力がわすれられたかのように、2010年には常用漢字が200字近く増える、ということになってしまった。ワープロでかかれた文章を調査して結論をみちびけば、常用漢字はふやしてよい、ということになったのだとおもう。しかし、きちんと日本人が漢字をよめているかどうかということをNHK放送文化研究所のようにしらべれば、常用漢字表の記載にとらわれず「かな優先」といった原則がつくられるようになった点は、日本語入力システムにかかわる技術者もあらためて考慮する必要がある点だろうとおもう。

　もちろん梅棹式表記ではひらがながおおすぎる、と感じられるひとはむかしからいらっしゃるようだ。ただ、すこし時間をおいて、自分で入力した漢字かなまじり文を自分でもよめるかどうか、といったことを、あらためてたしかめてみるのもよいようにおもう。

　tsf-tutcodeやuim-tutcodeのように、梅棹式表記のようなものにも比較的容易に対応できるIMEがあるいま、文節変換方式が本当によいものだったのかどうか、というところまでもどって今回はかんがえてみた。文節変換方式を実用化された天野真家さん自身が、別の方式もはじめから用意されていた、という事実はとても興味ぶかいことのようにおもう。というわけで、今回はここまでに。その3については、またあたらしい発見があれば。

補足: ツールについて

　tsf-tutcodeおよびuim-tutcode用のツール関連では、漢字辞書について、和語の熟語を辞書から削除するようなツールも用意して、前回よりも梅棹式表記を実践しやすい環境を用意しました。それらをまとめてGitHubから公開してあるので、興味をもたれたかたは、ためしてみてください。梅棹さんの著作などをほかのひとにすすめられるような機会があれば、論文でもブログでも梅棹式表記をつかわれることが一番ではないかとおもったりしています(すでにそうされている論文やブログ記事を数件みかけています)。