高校で習った統計学でここまでできる。
夏休みに入り、時間があってふとTwitterを覗くと以下の画像を目にしました。
ほんまか?
誰が見ているかわからないTLにセンシティブな画像を流したくないというのは確かにもっともらしい理屈であるが、統計的に検証する必要を感じた。
検証方法
無作為に絵師を選び、イラストのツイートを抽出する(誤差を少なくするためツイートから一日以上経過したものに限った)
そのイラストがセンシティブか否か(R18か否か)に応じてそれぞれRTとふぁぼの数を調べる。
グラフにプロットする。
使用データ
R18絵312件 NotR18絵275件
結果
以下のグラフのようになった。線形回帰直線も示した。
考察
グラフからも明らかなように同じ数のふぁぼに対するRTはNotR18絵の方が多い。
すなわち、やはりセンシティブな画像のRTはそうでない画像より控えられるのは正しいようである。
さらに、興味深い結果として、NotR18絵に関してはRT>1000の領域からデータのばらつきが激しくなるのに対してR18絵ではそのような傾向は小さかった。これに関しては以下の仮説を提唱する。
1、「バズり」の予測不能性
NotR18絵に関してはオタクとまではいかないライト層や一般の人への拡散も起こりやすい。対して、R18絵ではどれだけ優れた絵でもオタクコミュニティ内での共有に留まると考えた。
2、線引き問題
NotR18絵とR18絵の間の線引きは実に不明瞭である。今回の分類ではNotR18かそうでないか迷ったときは原則NotR18とした。それが「ノイズ」となっているという考えである。
さらにこの結果はR18絵に関してはRTの数からふぁぼの数を相当の精度で予測できるということを示している。(RTの少ない領域では機能しませんが)
試してみよう。有名絵師からセレクトする。
伊東ライフ氏のツイート(ttps://twitter.com/itolife/status/1146043843076165632?s=19)のRT数は1014である。(2019年8月4日23時49分時点)線形回帰直線の式から予測されるふぁぼ数は5.113*1014-35.963=5148.619であり実際のふぁぼ数5762とそれなりに一致する。
このモデルの活用法としてはX=5.113*(RT数)-35.963を計算し、実際のふぁぼ数と比べることで描いたイラストがよく拡散されているか調べるといったことがあげられる。すなわち、X/(実際のふぁぼ数)が大きいならばふぁぼに対してよく拡散されているといえるのではないかということである。
今後の展望
絵師のフォロアー数とかとの相関も調べたい。
ぜひしょうがくせいのみんなはもっとしらべてみよう!!!(無邪気)