後藤和智事務所OffLine サークルブログ

同人サークル「後藤和智事務所OffLine」のサークル情報に関するブログです。旧ブログはこちら。> http://ameblo.jp/kazutomogoto/

【テキストマイニング】5月14日はこいしの日【東方Project】


この論考は「東方Project」の二次創作を兼ねています。登場人物の口調や性格などが原作と異なる可能性がありますのでご注意ください。

f:id:kgotolibrary:20160514232607p:plain


古明地こいし(以下、こいし):5月14日はこいしの日だよ!みんながこいしのことを祝ってくれて、とっても嬉しいな。

古明地さとり(以下、さとり):これは恐らくpixivで始まったムーブメントで、5月14日に、あなた、つまり東方Projectの登場人物の一人である「古明地こいし」のイラストを上げようというユーザーの企画から始まったもののようね。「ピクシブ百科事典」によると、5月14日が《「5(こ)」「1(い)」「4(し)」と読める》ことから、このような動きが始まったものとされているわ。ツイッター上ではイラストのほか、コスプレ写真なども上がっているようね。本稿の著者がお世話になったイラストレーターの方のイラストもあるわね。

古明地さとりの自己形成論講義』『幻想郷市民大学1』表紙・おみなえし氏

 

『天狗組のメディアの世界を覗く旅』表紙・祭唄氏

 

『アリスのキャンパスライフ論講座』表紙・あーねすと氏

 

古明地こいしと不思議な数字の世界』表紙・杏飴氏

 



こいし:でも、この記事の書き手さんって、東方の同人誌は出してても、こういう講座系シナリオを中心とする文章か評論だよね。そもそもメインのジャンルも評論だし。どうやってこのお祭りに参加するの?

さとり:この記事では、「第12回東方Project人気投票」に寄せられたあなたへのコメントを分析して、あなたの人気の構造がどういう風になっているのか分析してみようと思うのよ。こいしは第11回の人気投票で1位を取るほどの人気を博しているし、第12回では3位に落ちたとは言えまだまだ根強い人気を誇っているわ。

こいし:人気投票のコメントを分析するってことは、テキストマイニングなの?

さとり:そうよ。本稿の筆者の評論同人誌ではおなじみのフリーソフト「KH Coder」を使って、コメントを分析してみることにしたの。分析の前提は、形態素解析エンジンは何もカスタマイズしていないMeCabで、KH Coder側で「こいし」「古明地」を強制抽出単語として設定しているわ。分析の対象としたコメントは、スプレッドシートを使って全ての文字を全角に変換し、なおかつ筆者名を消去したものよ。これによって1869のコメントを分析することができたわ。抽出できた単語の総数は19,395なのだけど、分析に使った単語は、このうち出現数が11以上の自立語108種類としたわ。

こいし:11以上、108種類って中途半端だね。

さとり:出現数11以上の自立語が単語全体に占める割合がほぼ25%なので、この水準としたわ。出現数ごとの単語数と占有率は表1の通りね。

f:id:kgotolibrary:20160514231710p:plain

 

さとり:これによって抽出した単語が次の通りね。ほとんどカスタマイズしていないMeCabの仕様上意味をなしそうにもない単語も抽出されているわ。

f:id:kgotolibrary:20160514231725p:plain


こいし:単語に注目してみよう。名詞で一番多くなってる「世界」は、第11回の人気投票でこいしが一位を取ったってことで、「世界一位」みたいな使われ方をしてるのが多い感じかな。これ関係だとサ変名詞に「連覇」っていうのがあるし。「無意識」はこいしの能力絡みだね。名詞以外だと、形容詞では「かわいい」「可愛い」が断トツで多いね。みんなこいしのこと、かわいいって思ってくれてるんだ。

さとり:「秘録」は深秘録、「霊殿」は地霊殿のことを指しているものといっていいでしょうね。「綺」は心綺楼かしら。

こいし:「ロッ」とか「しこ」とかってなんだろ?

さとり:「ロッ」は一人の投票者が「ペロッ」という文字列を延々と並べたコメントによるものね。「しこ」「ちゃんこ」は、ニコニコ静画などでこいしのイラストにつけられることがあるコメントである「こいしちゃんこしこし」から来ているわ。「prpr」は「ペロペロ」ね。なんでこれが組織名として抽出されたのか知らないけれど……。

こいし:こいしもお姉ちゃんのことペロペロしたいなぁ……。

さとり:こいし、よだれが垂れているわよ。閑話休題、本稿では第一に、これらのコメントに対してクラスター分析でクラスタリングを行い、コメントの傾向を見ていくことにするわ。まず出現数11以上の単語を用いてクラスタリングを行い、クラスターの併合水準を観察したわ。

f:id:kgotolibrary:20160514231756p:plain


さとり:これを見ると、だいたい5クラスターくらいが多くもなく少なくもなく、水準として妥当な線と言うことができるわね。5クラスターに分けると、第1クラスターに分類されたコメントが1255個、第2クラスターが55個、第3クラスターが85個、第4クラスターが93個、第5クラスターが171個、いずれのクラスターにも分類されなかったコメントが207個ね。第1クラスターにかなり偏っているけれど、これは措いておくことにしましょう。

こいし:5個のクラスターに分けたあとはどうするの?

さとり:対応分析によって単語とクラスターを布置することにするわ。その結果が次の図ね。

f:id:kgotolibrary:20160514231809p:plain


こいし:えーと……なんというか、コメントに困る図だね……。ひらがなの「かわいい」と漢字の「可愛い」の間に違いがあるってことはわかるんだけど……。

さとり:こんな感じになってしまったので、ここは具体的な数値を見ることによって判断することにしましょう。とは言っても、特徴的な単語を読み取ることはちょっと難しそうね。

f:id:kgotolibrary:20160514231825p:plain

f:id:kgotolibrary:20160514231839p:plain


さとり:次に、単語ごとの共起ネットワークを描いてみましょう。共起ネットワークは、Jaccard係数の大きい順番に単語を結んでネットワークを作るという分析よ。出現数11以上の単語で、Jaccard係数の大きい順から100組でネットワークを描画するとこんな感じになったわ。描画に際しては、最小スパニングツリーのみを強調表示しているわ。

f:id:kgotolibrary:20160514231911p:plain


こいし:こいしの名前が右下にあるけど、「可愛い」「かわいい」の両方が関連づけられてるんだ。やっぱりみんな、こいしのことかわいいって思ってくれてるんだね。あとは関連が強いのは「ちゃん」かな。「こいしちゃん」っていう呼び方が定着してるんだね。

さとり:関連語検索もやってみましょうか。「こいし」という単語を含むコメントについて、出現数11以上で上位60組で作るとこんな感じね。

f:id:kgotolibrary:20160514231925p:plain


こいし:シリーズ名で一群を作ってる場所があるけど、特徴的なのはあまりないかな。でも、「古明地」と「大好き」が繋がってるのを見ると、こいしはお姉ちゃんと一緒に愛されてるって見方もできるかもしれないね。こいしもお姉ちゃんのこと、大好きだよ。

(冒頭の図:多次元尺度構成法による単語の布置。出現11以上、バブルプロット)

参考文献:樋口耕一『社会調査のための計量テキスト分析―内容分析の継承と発展を目指して』ナカニシヤ出版、2014年