読書的な何か。

読書と読書にまつわるテクノロジー、雑記など。

読みやすさの評価指標(3)

前々回は英語での読みやすさ指標、前回は日本語での読みやすさ指標の先駆的研究について述べました。今回は、日本語の読みやすさ指標について、最近の動向について触れてみたいと思います。

こんな面白いツールが公開されています。

f:id:doksyo-tek:20150713223503p:plain

図1.日本語テキストの難易度を測る -obi-2-

このツールは、名古屋大学佐藤研究室で開発されたツールで、日本語テキストの難易度(リーダビリティ)を推定するプログラムになります。一見Flesch-Kincaid Grade Levelと類似しており、小学校1年~高校3年+大学の計13段階に難易度を分類推定してくれます。正確な解説は公開情報に譲ったほうがよさそうですね。

更に、もっと正確には論文も公開されています。

前者の論文に載っていた、帯システムの概要図は以下のようなものです。

f:id:doksyo-tek:20150713224111p:plain

図2.日本語テキスト難易度推定システム

規準となるコーパス(人間が利用する言語体系(自然言語)の文章を品詞や統制語彙などで整理した辞書みたいなもの)を学年別に用意し、各コーパスから導かれる言語モデルと、判定する文章の間の、尤度(もっともらしさ)を計算することで、どの学年に分類できるのか推定するわけです。

これはすばらしい。何がすばらしいかと言うと、推定の過程において、テキストを文や語に区切って考える必要がないことにつきます。スムージング等、様々な処理を加えていますが、基本的には数式・記号類やWeb特有の表現の影響を受けずに(それらを加味せずに)出現確率だけで難易度を推定できることになります。更に、漢字一文字がそもそも持つ意味を考慮している点も、すばらしい点と言えると思います。

ということで、試してみました。本来なら、同一データで他手法との比較、とかやると思いますが、論文中でも評価していたので、今回はいいかなーと。例によって青空文庫で何点か試してみました。そうです。特に意味はなく、単純にツールを触ってみたかったということです(^^;

今回は宮本百合子を選んでみました。宮本百合子にそんなに思い入れはありませんが、「本棚」というエッセイはとてもいい話でした。また、児童向けの「ペーチャの話」も書いているし、プロレタリア文学というそれなりに難解な文学にも取り組んでいる。ということで、下記3点がいい感じに評価されるのではないか、と帯にかけてみました。

うーむ。なんという予定調和。予想通りの分類をしてくれました。「ペーチャの話」は小学6年生のレベル6、「本棚」は中学3年生のレベル9、「『文芸評論』出版について」は大学・一般のレベル13でした。以下、推定結果です。

f:id:doksyo-tek:20150713224700p:plain

図3.【結果】ペーチャの話

f:id:doksyo-tek:20150713225037p:plain

図4.【結果】本棚

f:id:doksyo-tek:20150713225102p:plain

図5.【結果】『文芸評論』出版について

今回は、読みやすさ指標の最近の動向を知る、という意味で名古屋大・佐藤研の日本語テキストの難易度推定システム「帯」をみてみました。

世の中の日本語テキストの多くは一般向け、つまりレベル13が細分化されているわけで、それに対応する規準コーパスが必要なのだと思います(どうやって作るんだろ)。

しかしながら、「読みやすさ」を理解するために、まずは文章を定量的に測れることを示した、という点において帯システムはとても有用な手段だと思うわけです。

リンク