読書的な何か。

読書と読書にまつわるテクノロジー、雑記など。

ベストセラーを予測するアルゴリズム

はじめに

巷をにぎわしている(気がするだけ!?)ベストセラー予測アルゴリズム。ざっとググってみただけで、こんなに記事になっています。

発端となった本

予測アルゴリズムについて書かれているのは、以下の本です。2016年9月に発売。邦訳はされていません。

▼Jodie Archer,Matthew L. Jockers著「The Bestseller Code」(St. Martin's Press)
B01B1MWKIU

▼Jodie Archer,Matthew Jockers著「The Bestseller Code: Anatomy of the Blockbuster Novel」(Penguin)
B01FVDGRB6

八重洲ブックセンターで聞いたところ、入手は取り寄せで約1ヶ月くらいかかると。ひぇー。紙でもデジタルでも3000円もしないお手頃価格だし、英語の勉強になるし、内容確認が不十分であっても思い切ってポチッとしちゃっていいレベルかもしれません。

ちなみに2冊あるけど、何が違うんでしょうか。。出版社、出版日、ページ数も少し違う・・・。こういう時は、ポイントがたくさんつく赤のkindle本(2016.10.9 現在、996pt(39%)青のKindle本は596pt(23%))のほうがお得かもしれません。

で、このアルゴリズムに基づいて予測されたベストセラーがこちらだそうです。

▼Dave Eggers著「The Circle」(Vintage)
B00EGMQIJ0

ちなみに日本語版も出ています。

▼デイヴ エガーズ,吉田 恭子著「ザ・サークル」(早川書房)
B00SXTKV3G

 

この本、以前どうしても読みたいっ! と思って図書館で借りたものの、けっこうな厚みに恐れをなして結局読めずに返しちゃった本です。これはもう一度借りなければ(面白かったら買ってもよし、かな)。。

どんなアルゴリズムなの?

論文までさかのぼって検証していくのが正しいやりかたかと思いますが、残念ながら、行きつく先は著者Jodie Archer氏のスタンフォード大の学位論文になってしまい、手軽に手に入れることができませんでした。

searchworks.stanford.edu

 海外の博士論文ってどうすれば読めるんでしょうか。国会図書館のサイトとかに行けば何か情報あるのかしら。ってことで、ちょっと大変そうだったので、お手軽に先のニュース記事から、どんなことをしているのか抜き出してみました。

 現在のベストセラー・リストから、トーンやムード、話題、スタイルを読み取り、読者の嗜好や願望をアルゴリズム化し、原稿と対照してスコア化する

ニューズウィーク日本版 オフィシャルサイト)

どんな本がよく売れるのかという方程式がある

(ギズモード・ジャパン)

著者たちが挑んだのは、全文解析という技術です。現在のベストセラー・リストから、トーンやムード、話題、スタイルを読み取り、読者の思考や願望をアルゴリズム化し、原稿と対照してスコア化するという手法

(バベル・プレス)

コンピュータに本を読ませる全文解析

ニフティニュース)

どうやら、書籍全文からいくつかの要素軸(トーン、ムード、話題、スタイル)をスコアリングし、「読者の願望」となる指標と合致する書籍をベストセラー候補として導出しているようです。

この記事によれば、80~90%の精度で予測可能だそうです。実際、ダン・ブラウンインフェルノは95.7%、マイケル・コナリーのリンカーン弁護士は99.2%の精度で予測できたとか。これ、この割合でベストセラー化を予測できたってこと。。ですよね。ずいぶん高精度だ。

ただし、ザ・サークルに関して言えば、ギズモードによると「発売以来8割がたフィクションカテゴリーのトップ50圏外」だそうで、的確な予測はそれなりに難しい面もあるのかな、と思います。

まとめ

編集エージェントのSteve Laube氏によれば、このアルゴリズムの目指すところは、文芸評論家より精緻な分析。より実践的に、より小説の細部にいたる分析ができることを目指しているそうです。

They claim “the kind of reading that computers can do gets us closer to the details of a novel than even some of the most practiced literary critics.”

ビッグデータ時代こその計量文献学、いよいよ楽しくなっていきそうです。しかし、ここまで書いたんだから原本には当たらないとなぁ。いや原著論文でもいいけど。

読んでおきたい参考文献

言葉を定量的に扱う

▼村上 征勝著「シェークスピアは誰ですか?―計量文献学の世界 (文春新書)」(文藝春秋)
4166604066

▼エレツ・エイデン,ジャン=バティースト・ミシェル,阪本 芳久著「カルチャロミクス:文化をビッグデータで計測する」(草思社)
B01HT2GYII

スタイルとか、デザイン寄り?(絶賛積読中)

▼山本 貴光著「文体の科学」(新潮社)
B00WHVQNR4

ネットワーク理論に近いの?(絶賛購買検討中)

▼フランコ・モレッティ,秋草 俊一郎,今井 亮一,落合 一樹,高橋 知之著「遠読――〈世界文学システム〉への挑戦」(みすず書房)
4622079720