プラトンの著作を教師つき学習で分類する

計量文献学という分野をご存じでしょうか?文献学というと文系という感じがしますが、計量文献学では文献の特徴を数値化し、統計学的手法を用いて文献の分析をします。

文学作品の分析に数学を持ち込むというと、なんだか胡散臭く感じるかもしれません。文学作品の美しさを一体どうやって数学で表現すればよいのか…。たしかに、これはちょっと難しそうです。しかし、天才的な作家といえども人間ですから、彼らの書いたものには特有の癖が出るはずです。そういう癖を統計的に調べることはできそうですし、それによって、客観的データに基づいた作家・作品の分析・比較が可能になったりします。

例えば、シェークスピア=ベーコン説という仮説があります。たかが町人のシェークスピアがあれほど教養あふれる作品を書けたとは思えない、もっと教養のある別人(例えば、フランシス・ベーコン)が「シェークスピア」という名前で戯曲を書いたのではないか…といった説です。専門家の間ではまったくの俗説として退けられているのですが、この説を否定する根拠の一つは計量文献学によるものです。具体的には、二人の文章の比較をしてみると、平均的な単語の長さとか一文中の単語の数が違っているじゃないか、などなど*1

理数系の学生だった私は、大学生の頃にこういう研究手法の話をはじめて聞いて、何となく格好いいと感じたのですが、同時に、自分には無縁の話だとも思っていました。しかし、いまどき古典作品の文書ファイルはweb上を探せば案外見つかるものですし、統計的分析を行う手ごろなツールもあります。これらを利用して、計量文献学の雰囲気だけでも味わえないものでしょうか…?

*1:西内『統計学が最強の学問である』pp.245-247

続きを読む

ブログ開設

はじめまして、philpythonです。このたび個人ブログを立ち上げることにしました。

名前の通り、人工知能やプログラミングに興味があります。もう少し細かくいえば、計算理論とか自然言語処理に興味があります。といっても、プログラミングに関しては、pythonを学び始めてまだ2か月程度のヒヨッコなのですが。こんな大それたハンドルネームをつけていいものか…という気もしますが、景気づけということでご容赦願います。

このブログでは、pythonを学びながら私が考えたこと、思いついたこと、素朴な疑問などをメモしていこうと思います。コメントなどありましたら、お気軽にどうぞ。

それでは、よろしくお願いします。