読者です 読者をやめる 読者になる 読者になる

後藤和智事務所OffLine サークルブログ

同人サークル「後藤和智事務所OffLine」のサークル情報に関するブログです。旧ブログはこちら。> http://ameblo.jp/kazutomogoto/

【テキストマイニング】恋色の日なので三魔女のコメントを比較した【東方Project】

テキストマイニング KH Coder


この論考は「東方Project」の二次創作を兼ねています。登場人物の口調や性格などが原作と異なる可能性がありますのでご注意ください。

f:id:kgotolibrary:20160517011128p:plain


霧雨魔理沙(以下、魔理沙):5月14日の「こいしの日」に隠れて目立たない印象があるが、5月16日は「恋色の日」ということで私をお祝いする日になっているらしい。というわけで、お前ら、私のことを祝えよ。

アリス・マーガトロイド(以下、アリス):もう過ぎてるじゃない!

パチュリー・ノーレッジ(以下、パチュリー):で、「こいしの日」では「第12回東方Project人気投票」のコメントを分析したけれど、今回もそういうことでいいの?

魔理沙:そうだ。ただ前回の分析では、キャラクター1人だけの分析だったので、全体として少しグダグダな感じになってしまったのは否めない。こういうテキストマイニングでは、単一のものを対象にした分析だと中途半端な分析に終わってしまう。テキストマイニングの醍醐味と言えばやっぱり比較だ。そこで今回は、東方でも「三魔女」として知られる、私とお前ら、つまりアリスとパチュリーのコメントを比較してみようと思う。ちなみに16日に間に合わなかったのは、この記事の分析を始めたのが夜の21時という極めて遅い時間だったということが原因だ。

パチュリー:そんなことはどうでもいいよ。それはさておき、今回は私たち3人のコメントを分析して、その特徴を掴むということでいいんだよね。

魔理沙:分析には前回と同様、本稿の筆者の評論同人誌ではおなじみのフリーソフト「KH Coder」を使う。形態素解析エンジンも前回と同様MeCabを使い、MeCabはなにもカスタマイズせず、「魔理沙」「アリス」「パチュリー」「パチェ」「パッチェ」「マリアリ」「むきゅ」を強制抽出単語としてKH Coderの側に登録する。コメントはスプレッドシートを使って全角に変換して著者名を削除する。これによって3人合わせて3641のコメントを分析するぜ。

アリス:抽出水準はどのくらいに設定したの?

魔理沙:今回も全体での占有率が25%になる、出現数13以上の自立語180単語を分析対象としたぜ。参考までに、占有率が20%になるのは出現数27以上の81単語だ。

f:id:kgotolibrary:20160517011008p:plain


魔理沙:使用する単語は次の通り。

f:id:kgotolibrary:20160517011039p:plain


アリス:今回は複数の登場人物の分析を行うから、全体の傾向はあまり見なくていいわね。敢えていくつか挙げるとすると、「霊夢」という単語が多く見られるわね。ということは、この3人を採り上げると、霊夢も一緒に採り上げられることが多いってことになるのかしら。あと、固有名詞の欄に「こいし」ってあるわね。こいしちゃんも一緒に採り上げられているの?

魔理沙:いや、それはアリスへのコメントで、「こいし」という単語を並べたコメントがあったんだ。本稿の筆者も、「こいし」のカウント数が不自然に多かったんで、前回こいしへのコメントを分析したデータが混ざったのか、と考えてデータをチェックしたら見つけてしまったんだ。

アリス:入力ミスなのかしら……?

パチュリー:まあそれはいいとしよう。で、3人のコメントの違いを分析すると言うけれど、分析にはどういう手法を使うんだい?

魔理沙:まず最初に使うのは対応分析だ。対応分析を使えば、人物と単語を同一の空間内に布置することができる。今回はカテゴリが3つだから、主成分2つで寄与率は100%になる。対応分析を行って人物と単語を配置した結果がこれだ。

f:id:kgotolibrary:20160517011108p:plain


パチュリー:見事に3方向に別れたね。対応分析だと、それぞれの登場人物のまわりに、それぞれに特徴的な単語が配置される、という認識でいいの?

魔理沙:そうだな。

アリス:私のまわりを見てみると、私に特徴的な語は「美しい」「クール」「ツンデレ」「優しい」「綺麗」、一方で魔理沙のは「明るい」「男勝り」「努力」「乙女」「元気」という感じね。いずれも原作や二次創作におけるイメージをそのまま反映している感じね。あと、魔理沙の周りには「霊夢「レイ」があり、霊夢とセットで認識されている傾向が見られる一方で、私の近くには「マリアリ」があるわ。私は魔理沙とのカップリングで愛されてるってことでいいのかしら。

パチュリー:私の周りは「図書館」「本」「読む」。行動に関する単語が多い一方で、性格に関する言及はあまり見られないのか。

魔理沙:対応分析の得点も見てみよう。

f:id:kgotolibrary:20160517011150p:plain


魔理沙:もうひとつ、共起ネットワークでそれぞれに関連づけられている単語を見てみるぜ。Jaccard係数が大きい順番に60組を繋ぎ、最小スパニングツリーを強調した表示にした。

f:id:kgotolibrary:20160517011209p:plain


パチュリー:これも対応分析とあまり傾向は変わらないかな。ただここで新たに見られる知見があるとすれば、まず3人に共通して関連が強い単語は「かわいい」系統のものがあるね。あと、アリスと私に関連の強い単語が「嫁」か。これは魔理沙には見られない傾向かな。私とアリスについては所有権を主張したくなる方面での愛され方があるようだ。

魔理沙:このように、テキストマイニングを用いた分析では比較こそが重要になるぜ。複数の対象を比較すれば、特徴的なものが見えるかも知れない。本稿の著者は、2017年に開催される予定の「第11回東方名華祭/幻想郷フォーラム2017」を目標に、人気投票のコメントの分析を行おうと考えている。あまり期待せずに待っていて欲しい。

参考1:魔理沙へのコメントの共起ネット(全体での出現13以上、60本。以下同じ)

f:id:kgotolibrary:20160517011227p:plain


参考2:アリスへのコメントの共起ネット

f:id:kgotolibrary:20160517011245p:plain


参考3:パチュリーへのコメントの共起ネット

f:id:kgotolibrary:20160517011259p:plain


冒頭の図:多次元尺度構成法による単語の布置(出現26以上、バブルプロット)

参考文献:樋口耕一『社会調査のための計量テキスト分析―内容分析の継承と発展を目指して』ナカニシヤ出版、2014年