Shiki’s Weblog
梅棹忠夫さんの表記法と日本語入力IME
2022/06/18
はじめに
前回は、梅棹忠夫さんの文章作法をスタイルガイドとしてまとめました。今回は、梅棹さんの表記法をつかうときの、日本語入力IMEに関する技術的なおはなしをまとめておきます。
このブログの記事は、この5年ほど、わたしがつくったIMEをつかってかいています。「ひらがなIME」というIMEです。表記法も梅棹忠夫さんのつかわれた表記法をつかうように気をつけています。
梅棹さんの表記法のルールはつぎの三つでした。
- 代名詞,副詞,接続詞,感動詞,助動詞,助詞は、かながきにする。
- 常用漢字表の範囲内の漢字でかくようにする。
- 和語の用言(動詞・形容詞・形容動詞)には漢字をつかわない。
一般的なIMEで、この表記法をつかおうとしても、いまひとつ実用になりません。ひらがなでかきたいところまで、かってに漢字に変換してしまうためです。それをさけるためには、よみの確定をひんぱんにしないといけません。「よみの確定をひんぱんにしないといけません。」と入力したければ、だいたい、つぎのようにうちます。
よみの❲確定❳かくていを❲変換❳ひんぱんに❲確定❳しないといけません。❲確定❳
一般的なIMEには「よみ入力モード」というモードがあります。さいごの「ません。」までうったときには、「ません。」はまだIMEのよみ入力バッファのなかにあります。さいごに〔確定〕をおして、はじめて、アプリケーションソフトの本文のなかに「ません。」まで入力できます。(句読点で自動で確定するように設定すれば、最後の〔確定〕は省略できます。けれども、誤変換をなおさないといけないことがおおいと、自動で確定されてしまってはこまるのです。)
一般的なIMEは、
よみのかくていをひんぱんにしないといけません。〔変換〕〔確定〕
とうてば、「読みの確定を頻繁にしないといけません。」と入力できるようにつくられているわけです。これは、じぶんの表記法をめいかくにもっているひとたちにとっては、かならずしもよいことではありません。雑誌などでは、漢字のひらきかたをきちんとさだめていることがあります。そうした本の原稿をかくときには、IMEが変換したままの表記ではつかえないこともあります。
このように、一般的なIMEは、よみ入力バッファにためた文字列を解析して、なるべく漢字をあてようとします。なるべく“たくさん”漢字をあてようとするといってもよいでしょう。それで、すこしこまったことがおきています。
IMEにまかせて変換をして、できた文章をインスタント メッセンジャーなどでおくる。そうすると、あいてが漢字をよめずにこまっている。そうゆうことがよくあります。一般的なIMEが出力する漢字は、わたしたちが日常的にやりとりする文章には、むずかしすぎるのです。
一般的なIMEは、論文やレポートなどをかくのには、それらしく漢字がでてきてべんりです。以前は、文章をかいて提出するのは学校やしごとのときだけ。そうゆうひともおおかったはずです。大野晋さんも、かつて、「実際上、文字の機能は、今日の社会では極端にいえば、読めればいいんですよ。普通、手紙を一日一通書く人なんていないんですよ」といいはなったことがあります(『対談 日本語を考える』,大野晋編)。梅棹さんは、対談のなかで「もっともっと俗な世界が、いま眼前にひろがっているわけです」といわれました。いまは、梅棹さんがいわれたように、ともだちや家族にむけて文章をかいていることがとてもおおくなりました。
このような問題に対処するためにつくったのが、「ひらがなIME」です。「ひらがなIME」では、「よみの確定をひんぱんにしないといけません。」という文は、つぎのようにうちます。
よみのかくてい〔変換〕をひんぱんにしないといけません。
ひらがなIMEは「モードレスIME」です。「よみ入力モード」がありません。さいごの「ません。」までうったときには、アプリケーションソフトの本文のなかに「ません。」まで入力されています。
また、「ひらがなIME」の漢字辞書は、なまえ以外は常用漢字表内の漢字だけでつくられています。むずかしい漢語をつかおうとしても、漢字で表示されることがありません。ことばをおきかえたほうがよいときには、すぐに気がづきます。
ひらがなIMEの変換方式 — 前方最長一致法
「ひらがなIME」はPythonで2,000行ちょっとのプログラムです。「ひらがなIME」をみて、自分でもIMEをつくってみようとされているひとたちもいるようです。「自作IME」というのもみじかな題材になってきていそうです。
いま「ひらがなIME」がつかっているかな漢字変換の方法は、とてもかんたんな方法です。〔変換〕キーがおされたら、カーソルの位置から前方にむかって、よみに一致するいちばんながい単語を辞書からえらんでいます。これを「前方最長一致法」といいます。
一般的なIMEでは「n文節最長一致法」という方法がよくつかわれていました。とにかくながく一致するものをえらぶと、どういうわけか、うまく変換できてしまうところがあります。
いまの「ひらがなIME」は、文節をしらべたりはしていません。ひらがなでかかれたよみに一致する語をえらんているだけです。それで、実装がとてもかんたんになっているわけです。こんなにかんたんな方法でも、梅棹さんのような表記法をつかうぶんには、とくに問題はおきていません。
もちろん、たんじゅんにこれだけですと変換をあやまることがあります。けれども、辞書の学習がすすむと、うまくいくようになります。前方最長一致法で誤変換したときは、つぎのように辞書に登録しています。
「だが異論もあった」という文は、はじめは、「だ概論もあった」のように変換してしまいます。そこで、つぎからは「異論」がでてくるように、学習用の辞書に「が異論」を登録します。「ひらがなIME」では、出現頻度順のならべかえにくわえて、この処理も「学習」とよんでいます。
しばらく「ひらがなIME」をつかったあとで、こうゆう学習をしていた単語には、したのようなものがありました。ひだりはしが漢字のよみです。そのあとのスラッシュ(/)でくぎられている語が変換候補です。ひらがなではじまる語が、学習によって追加された語です。
あるかん /ある感/アルカン/
いかた /い型/伊方/
いかん /い感/移管/遺憾/偉観/衣冠/医官/尉官/異観/
いき /い気/域/息/粋/意気/遺棄/委棄/位記/壱岐/イキ/
いせい /い星/異性/以西/威勢/為政/
いせん /い線/緯線/伊仙/
いたじき /いた時期/板敷/
いちえん /い遅延/一円/
いぶん /い文/異聞/異文/遺文/遺聞/
いほん /い本/異本/
いもじ /い文字/鋳物師/
いよく /い欲/意欲/
いるか /いる蚊/イルカ/
いろん /異論/い論/
いわた /い綿/岩田/磐田/
うかん /う感/有漢/
うき /う気/雨期/雨季/
うじ /う字/氏/宇治/
うせつ /う説/右折/
うてん /う点/雨天/
うろん /う論/ウロン/
おき /お気/沖/隠岐/
かあす /か明日/カース/
かいかん /かい感/快感/会館/開管/開館/快漢/怪漢/開巻/
かいきょう /かい今日/海峡/回教/懐郷/海況/
かいこう /か意向/開校/開講/改稿/開口/回航/海港/海溝/開港/海口/開高/
がいぜん /が以前/蓋然/
かいてん /かい点/回転/開店/
かいは /かい派/会派/
かいぶん /かい文/回文/灰分/怪聞/
がいろん /がい論/概論/が異論/
がき /が気/餓鬼/ガキ/
がきょう /が今日/画境/
がしょう /が生/賀正/画商/雅称/
がむし /が無視/ガムシ/
からげんき /空元気/から元気/
きじゅん /基準/き順/規準/帰順/
きてき /き的/汽笛/
きてん /き点/基点/起点/機転/
きばん /基板/き番/基盤/
きひ /き日/忌避/基肥/
きよう /き用/器用/起用/紀要/貴陽/
くかん /く感/区間/
くき /く気/茎/九鬼/久喜/
くぶん /く文/区分/
くめん /く面/工面/
たいかん /たい感/退官/体感/耐寒/戴冠/大患/大官/大観/
たいき /たい気/待機/大気/大器/大樹/
たいけん /体験/た意見/大圏/大権/大剣/帯剣/
たいち /た位置/対地/対置/太一/
たいめん /対面/たい面/体面/
たかだい /た課題/高台/
たかん /た感/多感/
たき /た気/滝/瀧/多岐/多喜/多紀/
たさい /た際/多彩/多才/
たじ /た字/他事/多事/
たてん /た点/他店/
たぶん /た文/多分/他聞/多聞/タブン/
ためん /た面/多面/他面/
ついかん /つい感/追完/
つき /月/つ気/
つべつ /つ別/津別/
ていけん /て意見/定見/
ていこう /抵抗/て移行/
てきぎょう /て企業/適業/
てきさい /て記載/適才/
てきたい /て期待/敵対/
てじゅん /手順/て順/
てやく /て訳/手役/
とき /と気/時/土岐/朱鷺/鴇/
としん /都心/と信/妬心/
とせん /と線/渡船/
とち /土地/と地/栃/
とりかい /と理解/鳥飼/
ないかん /ない感/内患/内観/
ないき /ない気/内規/内記/ナイキ/
ないけん /ない件/な意見/内見/
ないてん /ない点/な移転/内典/
ないぶん /ない文/内聞/内分/
ないめん /ない面/内面/
ないやく /な意訳/内約/
なかず /な数/中洲/
なかた /な型/中田/仲田/
におう /に応/仁王/
にき /に気/仁木/ニキ/
にさんか /に参加/二酸化/
にぶん /に文/二分/
のいえ /の家/ノイエ/
のうむ /の有無/濃霧/
のおと /の音/ノート/
のかた /の型/野方/
のかみ /の神/野上/
のき /の木/軒/
のじ /の字/野地/野路/
のてん /の点/野天/
のなか /の中/野中/
のまど /の窓/ノマド/
のみ /の身/能美/ノミ/
はいがい /は意外/拝外/排外/
はいじ /は維持/拝辞/
はいぜん /は以前/配膳/
はいと /は意図/ハイト/
はいみ /は意味/俳味/
はき /は気/破棄/覇気/破毀/杷木/
はすう /は数/端数/波数/
はせん /は千/破線/波線/破船/
はほん /は本/端本/
はやく /は約/は訳/端役/破約/
はやま /は山/葉山/端山/早馬/
へいこう /並行/へ移行/平行/閉口/平衡/併行/閉校/
むかん /む感/無冠/無官/
むき /む気/無期/無機/無記/無季/
もよう /も用/模様/
ゆうかん /ゆう感/夕刊/勇敢/有閑/憂患/
らいこう /ら移行/来航/来光/来貢/雷公/雷光/
りき /り気/力/利器/
りぶん /り文/利分/
るいじょう /る以上/累乗/
るうた /る歌/ルータ/
るせつ /る説/流説/
るてん /る点/流転/
れいがい /れ以外/例外/冷害/
れいこう /れ以降/励行/霊光/
れいじょう /れ以上/令嬢/令状/礼状/霊場/礼譲/
この一覧をみていると、おもしろいことに気づきます。誤変換をひきおこす漢語には、いくつかのパターンがみられます。
- 「い」からはじまる漢語は、形容詞の連体形の活用語尾「い」+{漢語}というつらなりをじゃまする。
- 「う」からはじまる漢語は、ワア行五段活用の連体形「~う」+{漢語}というつらなりをじゃまする。「~という」など。
- 「かい」からはじまる漢語は、形容詞の連体形「~かい」+{漢語}というつらなりをじゃまする。
- 「が」からはじまる漢語は、助詞「が」+{漢語}というつらなりをじゃまする。
- 「の」からはじまる漢語は、助詞「の」+{漢語}というつらなりをじゃまする。
- 「は」からはじまる漢語は、助詞「は」+{漢語}というつらなりをじゃまする。
- 「ない」からはじまる漢語は、助動詞「ない」の連体形+{漢語}というつらなりをじゃまする。
- 「る」からはじまる漢語は、ラ行五段活用の連体形「~る」+{漢語}というつらなりをじゃまする。
こうしてみると傾向がみえてきます。およそ、つぎのようなかたちと、よみがかさなる漢語がじゃまになることがわかります。
- 助詞+{漢語}
- 助動詞の連体形+{漢語}
- 用言の連体形+{漢語}
もしこのような漢語がたくさんあったなら、前方最長一致法は実用にならなさそうです。けれども、じっさいには、そうゆう漢語はすくないことがわかります。ここにあげた一覧をみても、そもそも漢字辞書からとりのぞいてもよいような語がめだちます。
そのほかにじゃまをしている語は、ひとのなまえや、あたらしいカタカナのことばです。そうゆうことばも、ひんぱんにつかうことはあまりありません。くわえて、梅棹さんのようにかこうとしているときには、むずかしい漢語や同音異義語もつかわないようにしています。それで、いちど辞書を学習してしまえば、前方最長一致法でも誤変換がかなりへるのです。
日本語の表記法
いまの日本語の表記は「漢字かなまじり文」と「かな漢字まじり文」にわけることができます。むかしはこれにくわえて「よみくだし文」と「漢字文」がありました。
「かな漢字まじり文」というのは、梅棹さんが『知的生産の技術』のなかでつかったいいかたです。漢字がすくない文章という意味です。
日本語の表記法は、つぎのような表にまとめることができそうです。
表記法 | 説明 | |
---|---|---|
『土佐日記』の原文のような文章。漢語は漢字でかきますが、ほとんど漢語がでてきません。 | ||
ライトノベルや梅棹忠夫さんのような文章。「ひらがなIME」がおもに対象としている文章。 | ||
いまの公用文など。いまの一般的なIMEが対象としている文章。 | ||
漢字文を訓読したままのような文章。明治初期の新聞など。言文一致運動を通じて、つかわれることがほとんどなくなりました。 | ||
漢字だけでかいた日本語。中国語の漢文としてみると悪文であったり非文であったりします。 |
本居宣長の擬古文などは、和語にも漢字をあてることがありますが、かな文にちかいものです。「やさしい日本語」は、漢字を1,000文字くらいに制限してかくことがあります。用言をまだ漢字でかいていますが、「かな漢字まじり文」にうつっていく途中のようにもみえます。
「漢字まじり文」といういいかたは、ふるくは「ふりがな廃止論」をとなえた山本有三さんが「私のいふのはカナ交り文でなくつて、漢字交り文にするのです。」といわれています (「ふりがな廢止論」の理念と実践 : 山本有三の改版作業から」)。
※ 日本では、戦後、ルビをふることがよくないようにおそわってきたところがあります。これは、標準的な日本語を「かな漢字まじり文」にまで平明化したうえで、はじめてなりたつおはなしでした。いまのようになんでもかんでも漢字のよみを暗記させるようなことをかんがえていたわけではありません。
日本語の表記はどう変化してきたか
日本語の表記は、明治から昭和にかけて、漢字文から漢字かなまじり文にかわってきた。えらいひとたちの文章だけをみれば、そういえるかもしれません。けれども、それはえらいひとたちのなかだけのことです。
ふつうのひとたちは、かな文やかな漢字まじり文をずっとつかってきました。野口英世の母「シカの手紙」 をみたことがあるひともいるでしょうか。明治45年の文章です。いまこんなふうにかくひとはいない。そうおもうひとも、いるかもしれません。けれども、手でかけば、およそひらがなだけになるひとは、いまでもよくいるはずです。ワープロはそうゆう事実をかくしてきたところがあります。漢字がにがてなひとにとっては、そのことをかくせるありがたい機械でもあったわけです。
さいきんの研究をみると、鎌倉時代にかな文がよくつかわれるようになっていったことをしめすものがあります。「仮名文書の文体 : 譲与文言における接続形式の分類(4)」には、 「<仮名主体文書>の「全体の文書数」は、後半期に512通に上り、漢字専用文書を抜いて最多となる。」とかかれています。
日記のように自分しかよまない文章もありますが、ほとんどの文章は、ひとによんでもらうためのものです。自分だけでなく、あいてさえも、よめないような漢字をつかっても意味はありません。ともだちとのあいだでやりとりするような文章であれば、なおさらです。
いかに“ただしく”漢字を出力するかというのは、日本語入力IMEにもとめられている機能の一面でしかありません。こうしたことに興味をもったひとは、梅棹さんの『日本語と事務革命』(底本: 梅棹忠夫著作集 18 日本語と文明)もぜひよんでみてください。
おわりに
梅棹さんのかきかたは、わかった。でも、梅棹さん以外にそんなかきかたをするひとはいるのか。そう、おもうひともいるかもしれません。大学の先生がかかれた、似たような文体でかかれている論文のリンクをはっておきます。
- 大久保朝憲(2020)「のぞましさ述語と有利さ述語」『關西大學文學論集』70(3),149- 175
- こまつひでお(1972)「亀井孝著『日本語学のために』」『国語学』88,121-128
論文でも、こうした文体でかけるのです。「遠慮会釈なくつらぬいて」ともありましたけれども(笑)。こまつひでおさんは今年なくなられた小松英雄さんです。
個人でかくものなら、なおさらに、IMEにしばられたりせず、じゆうにかけばよいのです。そうやってことばとゆうのは、かわっていくもののはずです。俳優の堺雅人さんがひらがなのおおい文章をかくことも、わりとよくしられているようにおもいます。
製品マニュアルとか雑誌とかになると、それぞれで表記法がきめられていることもあるとおもいます。そうゆうものには、したがわなければならないでしょう。たいていは、よみやすくなるように、さだめられているはずです。それでも、お客さまや読者につたわらないとおもったときは、なおしていくように提案してみてはどうでしょうか。
ひらがなIMEは、バージョン0.14から、用言をよりかんたんに変換できるようにしました。これまでの最長一致法による学習だけで用言もうまく処理できるかどうかは、いま確認しているところです。
ちなみに、前方最長一致法でわりとうまく変換できることは、T-Codeの開発ちゅうに発見されていたようです。MLかなにかに、そのようなことがかかれていたのをみた記憶があります。ざんねんながらどこにだったかまでは、おぼえていません。漢直では、まぜがき変換を実現するために、カーソルのまえの文章をみるひつようがうまれました。そのときに、漢字がいっさいまじっていない状態でも、わりとうまく変換できることに気づかれたようです。