Aidemy Tech Blog

機械学習・ディープラーニング関連技術の活用事例や実装方法をまとめる、株式会社アイデミーの技術ブログです。

「俺」は背中で語る ~一人称から見るTwitter分析~

f:id:iTeresa:20171017182425p:plain

 こんにちは、てれにゃんです。幼少期は自分のことを「てれちゃん」と呼び、思春期から恥ずかしくなって「ウチ」になり、それも恥ずかしくなって「わたし」への矯正に成功してはや10年。

 自分のことを何と呼ぶかで、与える印象は大きく変わります。男性の場合で考えると、「おれ」だとより男性的で力強いイメージ「ぼく」だと従順で腰が低いイメージかなと思います。では、実際に使う一人称によって、発言自体に違いが現れてくるのでしょうか?

 今回はTwitterのツイート文字数に違いがあるかを調べました。日本の男らしい男性は、あまり多くを語らないとよく言われます。「俺」「僕」はいずれも一般的に男性が使う一人称ですが、「俺」の方がより男性性の強いイメージがあります。このことから、「俺」を使う人の方がより多くを語らないのではないかと考えられます。そこで、以下の仮説を立てました。

〜仮説〜

「俺」を使う人は「僕」を使う人より1ツイートにおける文字数が少ない?

 ちなみに、俺や僕を使う女性もたまにいますが、そのへんは無視して考えたいと思います。 では早速調べてみましょう。

0.環境&準備

  • Python

  • jupyter notebook

  • anaconda

  • Twitterアカウント

1.「俺」「おれ」「僕」「ぼく」を含むツイートを取得

 まずはサーチをしながら手っ取り早くたくさんのツイートを取得したいと思います。Twitterを使って分析したい場合はとにかくAPIを取得する必要がありますので、API取得のためのキーを持っていない方はまずこちらを参照してください。

qiita.com

 以下のリンクのコードをコピペすると、API切れなども考慮された挙動をするため大変便利です。約10000件まではAPI切れせず素早く取得できました。それ以上は15分ほど待てばさらに取得可能です。

ailaby.com

#キーワードで取得
getter = TweetsGetter.bySearch(u'俺 OR おれ OR 僕 OR ぼく')

 サーチ単語をこのように書き換えてしまえばOKです。カタカナも含めようか考えましたが、「カフェオレ」が一緒に拾われそうなのでやめました。

2.俺/僕判定

 「俺」「おれ」「僕」「ぼく」のいずれかが含まれるツイートを取得しましたが、1ツイートの中で一人称が複数含まれる場合が考えられます。俺が2回や俺とおれの両方が含まれている場合は「俺」、俺と僕の両方が含まれている場合は「どちらでもない」という判断をする必要があります。

 以下では「俺」「おれ」が含まれていたらOREリストに1、「僕」「ぼく」が含まれていたらBOKリストに1が追加されるようになっています。ただし、俺と僕、俺とぼく、おれと僕、おれとぼくのような組み合わせの場合は、いずれのリストも0となります。

        counter = Counter(tweet["text"])
        ORE_c=counter["俺" or "おれ"] 
        BOK_c=counter["僕" or "ぼく"]
        ore=0
        bok=0

         if ORE_c + BOK_c >= 1:
        #俺か僕のフラグをたてる
            if ORE_c > BOK_c :
                ore=1
                fp=1
            elif BOK_c> ORE_c:
                bok=1
                fp=2
            else:
                fp=0
        else:
            fp=0

 fpは、俺が1、僕が2、その他(俺と僕が同数など)が0となるようにしています。

3.データの記録

 下の for では、ツイートに含まれる複数情報の取得を20000回繰り返しています。取得したらただちに append を使ってリストに追加していきます。

cnt = 0
TweetList = []
ORE = []
BOK = []
FP = []
LEN = []

for tweet in getter.collect(total = 20000):
        cnt += 1
        tweet["text"] = tweet["text"].replace('\n','')
        TweetList.append(tweet["text"])
        ORE.append(ore)
        BOK.append(bok)
        FP.append(fp)
        LEN.append(len(tweet["text"]))

 ここでは文字数が重要になってきますので、空白や改行が邪魔になります。そのため

tweet["text"] = tweet["text"].replace('\n','')

で空白・改行を消しました。

 また、len(tweet["text"]) で取得したテキストデータから文字数をカウントしています。

import pandas as pd

#データフレームに変換
df = pd.DataFrame([TweetList,
                   ORE,
                   BOK,
                   LEN]).T
df.columns = ["tweet","ore","bok","len"]

#CSVに保存
df.to_csv('TwitterData.csv',encoding="utf-16")

utf-8だと文字化けしてcsvでテキストを読むことができなかったため、utf-16にしています。 リストをデータフレームにまとめたことで、dfはこのような状態になっています。 f:id:iTeresa:20171019005658p:plain

4.ヒストグラム

 まずはどれくらいの文字数でのツイートが多いかを可視化するために、一人称ごとでヒストグラムを描きます。ここでは3つのヒストグラムが重なって表示されるようにしていますが、fp=0 は「俺」でも「僕」でもない邪魔者なので消えてほしいです。そのため、とりあえず fp=0 のときだけ透明にして見えないようにしておきました。透明度は plt.hist() の中の alpha で調節できます。

import matplotlib.pyplot as plt

col = ["b","g","r"]
alp = [0, 0.3, 0.3]

for key, grp in df.head(total).reset_index().groupby('fp'):
    if len(grp['len']) != 1:
        plt.hist(grp['len'], bins=20, alpha=alp[key], histtype='stepfilled',color=col[key])
plt.ylabel("Tweet (frequency)")
plt.xlabel("word count")
plt.show()

f:id:iTeresa:20171018212448p:plain

 いずれの一人称も30文字あたりがピークとなっていますが、緑(俺)の方がかなり多くなっています。それに対して、ピークを過ぎてからは俺と僕で差が小さくなっています。

 ぱっと見では緑(俺)の方が文字数が少ないように見えますが、そもそも緑(俺)の方がツイートが多いため、このヒストグラムではよくわかりません。そこで、正規化してもう一度ヒストグラムを出してみます。

plt.hist(grp['len'],normed = True, bins=20, alpha=0.3, histtype='stepfilled',color=col[key])

f:id:iTeresa:20171018212446p:plain

このように、上のコードに normed = True をつけたすだけで正規化できました。

 縦軸は割合となり、緑と赤の合計が同じとなりました。さきほどとは異なり、60文字以上で赤(僕)が緑(俺)を上回っているのが目立ちますね。

5.棒グラフ

 まず記述統計をしたいと思いますが、dfにはツイートの文字が含まれているため、数字を数字として扱うことができません。そのため、以下のようにnew_dfという数字だけのデータフレームを新たに作りました。

df.ore = pd.to_numeric(df.ore)
df.len = pd.to_numeric(df.len)
df.fp = pd.to_numeric(df.fp)

new_df = pd.DataFrame()
new_df["ore"] = df.ore
new_df["len"] = df.len
new_df["fp"] = df.fp

 平均値および中央値は以下のように簡単に出せます。

#平均値
len_mean = new_df.groupby("ore")["len"].mean()
print("mean:"+str(len_mean))

#中央値
len_median = new_df.groupby("ore")["len"].median()
print("median:"+str(len_median))
#一人称ごとのグラフ
X = [1,2]
Y = [len_median[0],len_median[1]]
plt.bar(X,Y, align="center")
plt.xticks(X, ["BOKU",'ORE'])
plt.xlabel("First-Person")
plt.ylabel("word count (median)")

#標準誤差バー
SD = new_df.groupby("ore")["len"].std()
ORE_SE = SD/math.sqrt(df["ore"].sum())
BOK_SE = SD/math.sqrt(df["bok"].sum())
err = [BOK_SE[0],ORE_SE[1]]
plt.errorbar(X,Y,yerr=err,fmt='k ',ecolor='k')
plt.show()

f:id:iTeresa:20171018223636p:plain

 文字数について、「俺」の平均値が54.3文字、「僕」の平均値が61.6文字でした。中央値も「俺」で42文字、「僕」で52文字となり、いずれの値においても、「俺」の方が1ツイートにおける文字数が少ないという結果になりました。なお、標準誤差エラーバーもがんばって出してみましたが、小さすぎてゴミのようになってしまいました。

6.検定

 こちらの方法で統計的検定ができます。

from scipy import stats
group_ore = new_df[new_df['fp'] == 1]['len']
group_bok = new_df[new_df['fp'] == 2]['len']

#t検定
print(stats.ttest_ind(group_ore, group_bok))

#U検定
print(stats.mannwhitneyu(group_ore, group_bok))

 ヒストグラムを見てわかるように、文字数は正規分布していないので、今回はt検定ではなくU検定をします。 俺群と僕群の間で文字数についてU検定をおこなった結果、U値が30960093.5、p < 0.05(p = 4.15e-42)で両者の差は有意となりました。つまり、「俺」は「僕」より1ツイートにおける文字数が少ないという仮説が支持されました。2万件近くもツイートがあると、p値が5%切るのは余裕ですね。検定するまでもなく明らかです。たくさんデータをとるとp値は小さくなりますが、p値は2群間の差の大きさを表すものではないので注意してください。

7.まとめ

 ヒストグラムと棒グラフで視覚的に確認しても、検定を行って数値で確認しても、「俺」を使ったツイートの方が「僕」を使ったツイートよりも文字数が少ないことがわかりました。「俺」を使う男らしい(印象を与える)人は口数が少なく、背中で語るような人なのかもしれませんね。

 今回紹介した統計的分析手法は心理学でもよく使われる基礎的なもので、わざわざPythonを使わなくてもできそうなものです。しかし、Pythonを使うことで、Twitterで取得した大量のデータを使って気軽に遊ぶことができます。Twitter上に埋まった大量の宝をぜひPythonで掘り出してみてくださいね!

f:id:iTeresa:20171017180016p:plain