読書的な何か。

読書と読書にまつわるテクノロジー、雑記など。

読みやすさの評価指標(1)

Microsoft Wordには、「文書の読みやすさをテストする」機能が備わっています。この機能をちょっと試してみました。

support.office.com

事前準備

【使用ソフトウェア】

  • MS Word 2003
  • MS Word 2010

【設定】

  • MS Word2003:「ツール」→「オプション」→「スペルチェックと文章校正」タブ→「メニュー、ツールバーから文章校正を行う」にチェック→「文書の読みやすさを評価する」にチェック。
  • MS Word 2010:「ファイル」タブ→「オプション」→「Wordのオプション」ダイアログボックス→「文章校正」→「文書の読みやすさを評価する」にチェック。

【利用コンテンツ】

【制約】

  • 利用は冒頭の3段落のみです。
  • ”[1]” のような注釈は削除しています。
  • 色/太字/斜体等の文字装飾属性は削除しています。
テスト

上述のコンテンツをWord上にコピペし、制約を整えて、F7キーを押下するのみ!

結果

以下のような結果になりました。

f:id:doksyo-tek:20150501012708p:plain

図1 MS Word 2003による読みやすさの評価

f:id:doksyo-tek:20150501012748p:plain

図2 MS Word 2010での読みやすさの評価

図を見ると分かるとおり、「読みやすさの評価」ダイアログが出てきます。見てみると、「語数(Counts)」「平均(Averages)」「読みやすさ(Readability)」項目があり、文書を定量的に計算してくれます。ここで気になったのは、下側の2指標です。

  • Flesch Reading Ease
  • Flesch-Kincaid Grade Level

他は数えたり平均値を取ったりしたのがわかるのですが、この2指標は何でしょうか。調べてみると、英語圏ではとても有名な指標だったようです。

Flesch Reading Ease

作家であり、Readabilityの専門家としても有名なルドルフ・フレッシュが考案した読みやすさ指標です。スコアの算出方法は簡単で、

206.835 - (1.015 * ASL) - (84.6 * ASW)

となっています。ここで、ASL(Average Sentense Length)は文章の平均の長さを表し、単語数を文章数で割った値になります。また、ASW(Average number of Syllables per Word)は1単語あたりの平均音節数を表し、音節数を単語数で割った値になります。

今回のサンプルの場合、

  • 単語数 193
  • 文章数 11
  • 音節数 324※

となり、式に当てはめると、

206.835 - (1.015 * (193/11)) - (84.6 * (324/193)) = 46.897

ASL = 193/11 = 17.545、ASW = 324/193 = 1.68

となり、図1の計算結果47.0とほぼ一致します(※2003と2010は音節数の数え方が異なるようです)。この値の示す意味は、「値が高いほど読みやすい」です。以下の表に示す分類がおおよその目安とされているようです。

 表1 FREのスコア(出展は参考文献参照)

f:id:doksyo-tek:20150501015414p:plain

Flesch-Kincaid Grade Level

こちらはフレッシュと教育学者のキンケイドが考案した読みやすさの指標で、教育分野、とりわけ米国の学年レベルに拡張した指標になります。スコアの算出方法は以下のとおり。

(0.39 * ASL) + (11.8 * ASW) - 15.59

ASL、ASWはFlesh Reading Easeと同じです。同様に、今回のサンプルで計算してみると、

6.842 + 19.824 - 15.59 = 11.076

ASL = 17.545、ASW = 1.68

となり、おおよそ図1の結果と一致することがわかります。こちらの値が示す意味は、Flesh Reading Easeと逆で、低いほうがより年次の高い学年に相当します。目安の表は以下の通り。

表2 FKGLのスコア(出展は参考文献参照)

f:id:doksyo-tek:20150501015748p:plain

話の整理

この2式を眺めてみると、

  • 長い単語は一般になじみの薄い単語であることが多い→語彙の難しさを表す
  • 長い文は構文が複雑になりやすいことが多い→構文の難しさを表す

と言うことができます。要するに、これらの指標は単語や文の意味に関係なく、単語や文の「文字列としての長さ」に着目し、長い単語や文を多く含む文章は読みづらく、その逆は読みやすい、としていることがわかります。これは、単語や文の意味の解釈には個人差が出るので、それを排除した形なのだということもできます。

フムフム。でも、これって英語の場合の話ですよね。日本語の場合だとどうなるのでしょうか。単純に、「長い単語」を「漢字の多さ」に置き換えても通用するものなのでしょうか。

漢字の場合、ひらがなやカタカナへの言い換えもできるため、ひらがなやカタカナが多くなると文も長くなる、という依存関係が生まれてしまいます。つまり、長い単語(=漢字の多寡)と長い文を独立して測ることは難しそうな気がします。

この問題に取り組んだ古い論文を見つけたのですが、そのお話は別の機会に!

参考文献

▼The Principles of Readability

▼村上 征勝著「シェークスピアは誰ですか?―計量文献学の世界 (文春新書)」(文藝春秋)
4166604066

リンク