「猫と森羅と日本語とルビー」この本のタイトルは私がこの本に詰めこもうとしたものすべてを表わしています。 猫はこの同人誌を書くためにつけたサークル名「みさきとミギー」に由来します。 みさきとミギーは私の飼い猫です。飼っているというより同居していると言ったほうがいいでしょう。 私は毎日猫たちとゴロゴロしながら猫のように過しています。ですので、猫は私自身のことであり、私の私的な指向でやっている技術を本にまとめたという気持ちが込められています。 おそらく猫のようにころころと話題を転換しながら進行することでしょう:p 2つめの森羅はこの本のメイントピックである森羅プロジェクトのことです。 2つめの森羅はこの本のメイントピックである森羅プロジェクトのことです。 森羅プロジェクトはWikipediaから固有表現を抽出して構造化するということを行う評価型のプロジェクトです。 森羅プロジェクトは評価型のプロジェクトでありながら言語資源をつくることを同時に行うということでこのプロジェクトの成果は世に還元されるという意義のあるものです。 私が森羅プロジェクトに参加しようと思ったのは、この本のタイトルの最後の2つ、「日本語とルビー」というところに理由があります。 日本語とタイトルにつけたのは日本語の自然言語処理のことです。森羅はもちろん日本語の自然言語処理の技術を発展させるために起こされたプロジェクトであり、日本語の自然言語処理のプログラミングを必要としています。 ところが、日本語の自然言語処理のためのプログラミングツールは決して充実しているとは言い難いです。 ルビーはもちろんプログラミング言語Rubyのことです。 私はRubyという言語がだいすきです。何故好きかというと、いろいろ理由はありますが、大きく2つの理由があります。 ひとつは良く言われることですが、Rubyがとても手に馴染む使いやすい道具であるということです。 もうひとつはコミュニティにあります。Rubyのコミュニティはいつもあたたかく、そしてプログラミングが大好きな人々の集りで、皆で技術的な課題を一緒になって解決しようという謎の団結感があります。 そのコミュニティのひとつにRed Data Toolsというコミュニティがあります。Red Data ToolsはデータサイエンスのためのツールをRubyで作っていこうという集りで、コミュニティを跨って協力してやっていこうというポリシーを持っています。 私はそのRed Data ToolsのメンバーとしてRubyの自然言語処理のツールを開発しています。 またRuby自体、日本人が作った言語でいまでも多くの開発者が日本人です。自然言語処理の中でも特に日本語にフォーカスするとRubyでできるようにすることは意味のあることだと思います。 私は大好きなRubyとそのコミュニティと一緒に自分の目下の興味関心のある自然言語処理の課題にチャレンジしていて、それについてまとめたものが本書ということになります。