先人たちの読書論(2)
前回の続きです。青空文庫で集めた先人たちの読書論をテキストマイニングしてみます。
【解析の方針】
テキスト解析用フリーソフトのKH Coderを使って、Rによる多変量解析を行いました。解析では、対象文献から抽出した語の関係性と分類を図示し、考察を加えます。
【手法】
1.語の関係性
共起ネットワーク(出現パターンが似通っている抽出語のネットワーク図)を用いて、語の関係を可視化しました。
2.語の分類
3パターン試しています。(A)階層的クラスター分析では、抽出語を似ている語同士、樹形図(デンドログラム)で分類しています。(B)多次元尺度構成法では、抽出語を似たものは近くに、異なるものは遠くに配置することで分類をしています。(C)自己組織化マップでは、多変量の次元数を2次元に落として配置することで分類し、マップを作ります。
【解析結果】
1.語の関係性
共起ネットワーク
2.語の分類
(A)階層的クラスター分析
(B)多次元尺度構成法
(C)自己組織化マップ
【考察】
各解析について、個人的な解釈を加えてみようと思います。
まず、共起ネットワークですが、語の共起関係をベースに、ネットワーク形成するコミュニティの結びつきを表現するモジュラリティという指標を用いて、いくつかの固まりが形成されています。読む行為は赤いサブクラスで、読む対象(科学・哲学・主義など)は緑と青のサブクラスで、そこから表現としての云う行為は紫のサブクラスで表現されています。黄色の日本サブクラスは、まぁ国内のことを対象としているといった感じでしょうか。
これを見ると、今から5~60年前は、読書を通じて、科学や社会、考え方(主義)に対する知見を得て、それに基づいて新たな知見を発信するという、ある意味ベーシックな知的生産活動が行われていたことがわかります。今のように膨大かつ多様な情報源があるわけではないので、今以上に読書による知識が重宝されていたのだと思います。
階層的クラスター分析はどうでしょうか。こちらは共起よりも、もう少し細かい粒度で分類されています。各色を上から①、②、③、、、⑧として、主観的にえいやっと解釈するならば、
哲学・思想(②)や自然の研究(③)は出版され(④)、あるいは図書館に納められ(⑤)読まれる(①)。また、産業(⑥)や社会(⑧)に対する考え(⑦)も読まれてきている(①)。
ということになりそうです。上の文はわかりづらいですが、読む対象が、人文科学や自然科学から、産業・社会に関するものへと、複雑化してきていると捉えることもできそうです。
多次元尺度構成法はどうでしょうか。似たものを近くに、異なるものを遠くにという関係を考えると、「読む」行為は、哲学・思想→自然科学→産業・社会へと広がっていく様子を見て取ることができ、先の階層的クラスター分析と一致します。
最後の自己組織化マップですが、なんとなくクラスタリングされているのですが、含まれている抽出語を眺めてもうまい具合にラベリングできませんでした。また、クラスタ間の関係もイマイチ。1000回学習させたのですが、それでは自己組織化が足りなかった(精度よく分類されなかった)のかもしれません。
【まとめ】
データが少ない&手法が荒い&解釈がイマイチ、な面があったとは言え、総合的に見て先人の読書論は、少し固めの(出版された研究成果を読むべし!みたいな)読書論、読書感が多かったのかなぁと思いました。もちろん、原典を読んだわけでもないですし、そもそも青空で電子化している文献がそのような傾向を示しているだけなのかもしれないので、一概に言えない部分はあります。
かの民俗学者・梅棹忠夫氏は読書が食事に例えられるアナロジー(書物は精神の糧、みたいなやつ)を拡張し、知的生産の技術論と心のたのしみとしての鑑賞論は分けて考えよう、と言っていました。先人たちの読書論も、ある意味技術論が中心だったのかなと思いました。せっかく先人たちがつむいでくれた技術論、時間をかけて、実際の原点にあたって、、、みようかな。