Shiki’s Weblog

ソフトウェアで複文(ふくぶん)をチェックする

2025/03/28

はじめに

 梅棹(うめさお)忠夫(ただお)さんは、「複文(ふくぶん)というのはわかりにくい。単文(たんぶん)連続(れんぞく)でかかんと」(『梅棹(うめさお)忠夫(ただお) (かた)』 p.43)といわれていました。こみいった複文(ふくぶん)は、とてもよみにくいものです。文章(ぶんしょう)をかいているときにも、むずかしい複文(ふくぶん)をつかっていないかチェックできると、べんりそうです。そこで、日本語(にほんご)NLPライブラリ GiNZA利用(りよう)して、そうしたツールをつくってみました。今回(こんかい)は、そのお(はなし)です。

(ぶん)のとらえかた

 日本語(にほんご)(ぶん)は、「述語(じゅつご)以外(いがい)はすべてその補足(ほそく)()として作用(さよう)する」(『日本語(にほんご)作文(さくぶん)技術(ぎじゅつ)』 p.214)。梅棹(うめさお)忠夫(ただお)さんは、そうもいっていました。補足(ほそく)()のあとにスラッシュ(/)をいれてしめすと、日本語(にほんご)(ぶん)はつぎのような構造(こうぞう)になっています。

補足(ほそく)()/補足(ほそく)()/……/述語(じゅつご)

 たとえば、「述語(じゅつご)以外(いがい)はすべてその補足(ほそく)()として作用(さよう)する。」という(ぶん)は、つぎのような構造(こうぞう)になっています。

述語(じゅつご)以外(いがい)は/すべて/その補足(ほそく)()として/作用(さよう)する。

 (ぶん)がよみにくいときは、補足(ほそく)()補足(ほそく)()のあいだに読点(とうてん)(、)をうつのもひとつの方法(ほうほう)です(『日本語(にほんご)作文(さくぶん)技術(ぎじゅつ)』 p.130)。

述語(じゅつご)以外(いがい)は、すべて、その補足(ほそく)()として作用(さよう)する。

単文(たんぶん)複文(ふくぶん)

 単文(たんぶん)というのは、(ぶん)のなかにひとつだけ述語(じゅつご)がある(ぶん)です。複文(ふくぶん)というのは、(ぶん)のなかにふたつ以上(いじょう)述語(じゅつご)がある(ぶん)です。複文(ふくぶん)では、文末(ぶんまつ)述語(じゅつご)のほかに、補足(ほそく)()のなかにも述語(じゅつご)があらわれます。ここでは、補足(ほそく)()のなかにうめこまれた述語(じゅつご)とその補足(ほそく)()をカッコでくくってあらわすことにします。

 たとえば、「きみがくる()はいつも(あめ)だ。」という複文(ふくぶん)は、つぎのようにあらわすことができます。

(きみが/くる)()は/いつも/(あめ)だ。

わかりにくい複文(ふくぶん)

 わかりにくい複文(ふくぶん)(れい)として、ウィキブックスの「日本語(にほんご)/構文(こうぶん)」のなかにつぎの(ぶん)がでてきます。

取引先(とりひきさき)()(しゃ)社長(しゃちょう)作家(さっか)がどこに(かく)れているか秘書(ひしょ)調(しら)べさせていることを(こころよ)(おも)っていないことをみんなは(だま)っていた。

 このままでは、なにをいっているのか、よくわかりません。そこで、スラッシュとカッコをつかって、(ぶん)構造(こうぞう)をみてみます。

(取引先(とりひきさき)が/(()(しゃ)社長(しゃちょう)が/(作家(さっか)が/どこに/(かく)れているか)/秘書(ひしょ)に/調(しら)べさせている)ことを/(こころよ)く/(おも)っていない)ことを/みんなは/(だま)っていた。

 『日本語(にほんご)作文(さくぶん)(じゅつ)』にでてくるように、ながい修飾(しゅうしょく)()がまえにくるように(ぶん)をかきかえます。

(((作家(さっか)が/どこに/(かく)れているか)/()(しゃ)社長(しゃちょう)が/秘書(ひしょ)に/調(しら)べさせている)ことを/取引先(とりひきさき)が/(こころよ)く/(おも)っていない)ことを/みんなは/(だま)っていた。

 こうすると、カッコとスラッシュをとりさっても、すこしよみやくなっています。

作家(さっか)がどこに(かく)れているか()(しゃ)社長(しゃちょう)秘書(ひしょ)調(しら)べさせていることを取引先(とりひきさき)(こころよ)(おも)っていないことをみんなは(だま)っていた。

 この(ぶん)は、つきにのような単文(たんぶん)連続(れんぞく)にかきなおすことができます。

作家(さっか)がどこかに(かく)れてしまった。()(しゃ)社長(しゃちょう)作家(さっか)居場所(いばしょ)秘書(ひしょ)調(しら)べさせている。取引先(とりひきさき)はそのことを(こころよ)(おも)っていない。けれども、みんなは(だま)っていた。

 ここであげた(れい)ほどわかりにくい複文(ふくぶん)は、さすがにかかない。そうおもうひとも、いるかもしれません。けれども、じぶんでかいた文章(ぶんしょう)となると、よみにくくても、なかなか()づかないようです。すこし時間(じかん)をあけて文章(ぶんしょう)をみなおすと、問題(もんだい)(てん)()づくこともあります。

ソフトウェアで複文(ふくぶん)をチェックする

 ひとつひとつの(ぶん)のながさをみじかく。いまの国語(こくご)では、よくそうおそわります。こみいった複文(ふくぶん)は、(ぶん)がながくなりがちです。ひとつひとつの(ぶん)のながさに注意(ちゅうい)していれば、こみいった複文(ふくぶん)もへらすことができます。ふりがなパッドのようなエディターをつかうと、(ぶん)のながさをチェックしながら作文(さくぶん)することもできます。

 けれども、(ぶん)のながさをチェックするだけでは、わかりにくい複文(ふくぶん)()おとしていることがあります。複文(ふくぶん)直接(ちょくせつ)チェックできるツールがあれば、作文(さくぶん)をするときにべんりそうです。

GiNZAを利用(りよう)する

 さいきんは、ソフトウェアをつかって、(ぶん)構造(こうぞう)をわりと正確(せいかく)にしらべられるようになってきています。たとえば、日本語(にほんご)NLPライブラリ GiNZAをつかうと、文中(ぶんちゅう)単語(たんご)(かん)関係(かんけい)をしらべることができます。これを利用(りよう)して、(ぶん)構造(こうぞう)をしめすコマンドライン ツールをつくってみました。

 つくったツールのソースコードをGitHub Gistにおいておきました。GiNZA v5.2.0をインストールしてつかってみてください。しらべたい(ぶん)入力(にゅうりょく)すると、(ぶん)構造(こうぞう)がカッコとスラッシュをつかって表示(ひょうじ)されます。

 さきほどの複文(ふくぶん)をこのツールにとおしてみます。

取引先が我が社の社長が作家がどこに隠れているか秘書に調(しら)べさせていることを(こころよ)(おも)っていないことをみんなは(だま)っていた。
(取引先が/(我が社の社長が/(作家が/どこに/隠れているか)/秘書に/調(しら)べさせている)ことを/(こころよ)く/(おも)っていない)ことを/みんなは/(だま)っていた。

 最新(さいしん)のja_ginza_bert_large β1を利用(りよう)すると、期待(きたい)どおりの結果(けっか)をえることができました。この(ぶん)は、数年(すうねん)まえのja_ginza_electraではうまく解析(かいせき)できていませんでした。ja_ginza_bert_largeはまだベータ(ばん)ですが、よいものができてきそうです。

 つぎに、以前(いぜん)、NEWS WEB EASYの記事(きじ)にでてきた、わかりにくい(ぶん)をこのツールにとおしてみます。

来年からは、会社が作る車の中で、決まった割合以上を電気自動車などにしなければならないという新しい規則がスタートする予定です。
(来年からは、/((会社が/作る)車の中で、/決まった割合以上を/電気自動車などに/しなければならないという)新しい規則が/スタートする)/予定です。

 この(ぶん)も、複文(ふくぶん)構造(こうぞう)がふかく()()になってしまっています。「やさしい日本語(にほんご)」の文章(ぶんしょう)としては、ふさわしくない(かん)じがします。

 こみいった複文(ふくぶん)は、文章(ぶんしょう)をわかりにくくします。カッコが(なん)(だん)にもいれ()になっているような複文(ふくぶん)は、かきなおしたほうがよさそうです。

まとめ

 今回(こんかい)は、複文(ふくぶん)をソフトウェアでチェックするというお(はなし)でした。日本語(にほんご)表記(ひょうき)問題(もんだい)複文(ふくぶん)問題(もんだい)梅棹(うめさお)忠夫(ただお)さんの文章(ぶんしょう)のよみやすさを理解(りかい)しようとおもうと、勉強(べんきょう)しないといけないことがたくさんあります。