読書的な何か。

読書と読書にまつわるテクノロジー、雑記など。

読みやすさの評価指標(2)

前回はFlesch Reading Ease、Flesch-Kincaid Grade Levelという、英語圏では有名な指標について述べました。これらは「読みさすさの評価指標」として、文章が持つ言葉の意味やレイアウトは捨てて、文章が持つ表面的な情報(言葉や構文の長さ)を用いた指標でした。

今回は以下の論文を参考に、読みさすさ評価指標・日本語版について考えてみようと思います。

この論文は日本語文章の読みやすさの評価式を検討したもので、読みやすさの要因を以下の4つとしています。

  1. 文の平均の長さ(文字数)
  2. 各文字種(英字、ひらがな、漢字、カタカナ)の連(同一文字種の文字の一続き)の相対頻度
  3. 文字種ごとの連の平均の長さ
  4. 読点の数の句点の数に対する比

これら文章が持つ表面的な情報の数値から、主成分分析によって特徴となる成分を3つ抽出し、その中から2番目の成分を読みやすさ成分として選んでいます。主成分は線形式で計算するので、その式が評価式となるわけです。

 実験で用いたテキストは入門書/論文、エッセイ/法律関係の解説文、翻訳文、雑誌記事、等で全部で77編。これらを主成分分析すると、第2成分に以下のような特徴が表れたようです。

  • スコアの大小は、読みやすい/読みにくいテキスト(ここではエッセイ/法律関係)に関する主観評価と一致する
  • 入門書は論文よりスコアが高い(これも読みやすい/読みにくいと同じロジックかな?)
  • スコアは推敲により大きくなる
  • スコアは受身の頻度と負の相関を持つ

つまり、エッセイや入門書のように主観的に読みやすく、かつよく練られており(推敲されており)、かつ受身が少ない(受身が多いと文の意図が不明瞭になるらしい)文が読みやすい文というわけです。なんとなく納得のいく要因ですね。

で、論文では、先に述べた(1)~(4)の読みやすさの要因から10の変数を作り、式を検討しているのですが、途中簡易化して、最終的に以下の6変数で式化していました。

長いので、項単位で改行して引用します。

RS =
-0.12 * 1s
-1.37 * 1a
+7.4 * 1h
-23.18 * 1c
-5.4 * 1k
-4.67 * cp
+115.79

 ここで求める解および各変数は以下としています。

RS:評価
1s:文の平均の長さ(文字数)
1a:アルファベット連の平均の長さ(文字数)
1h:ひらがな連の平均の長さ(文字数)
1c:漢字連の平均の長さ(文字数)
1k:カタカナ連の平均の長さ(文字数)
cp:句点あたりの読点の数

 単語や構文の長さを日本語独特の「連なり=連(同一文字種の文字の一続き)」で考えているものの、なんだかFleschやKincaidの評価式と似てきましたね。

ちなみに論文では、RSの大きなテキストとRSの小さなテキストを用意し、クローズ法(被験者のレベルに見合う適当な文を規則的に歯抜けにして、その空白部分を埋めてもらう形式のテスト)を用いた被験者実験をして、妥当性評価をしています。

この論文は発表されてからもう30年近く経つのですが、先駆的研究であり、以降、文章のわかりやすさ=文章の難易度推定、という研究領域において、様々な方式が検討・提案されていくことになるようです。最近の動向については、次回以降もう少し触れてみたいと思っています。

なお、今回取り上げた論文は既にオープンアクセスなので、ダウンロードして読むことができます。

【追記 2015.5.25】

建石らの論文を実装したサービスがテキサス州立大学で公開されている、と聞いたのですが、ちょっと探し当てることができませんでした。せっかくなんで使ってみたかったなぁ(実装はそんなに難しくなさそうだけど)。

リンク