ModestCute

ModestCuteは「エロゲー×統計」な同人サークルです。

サークルModestCuteについて

■お知らせ

(2018/7/31)

 コミックマーケット94に出ます。
 日時:8月12日(日)3日目
 場所:東7ホール ホ-27b

新刊情報はこちら↓

 

tsubame30.hatenablog.jp

 

 

■通販情報

(2018/7/31)

BOOTHで自家通販やっています。

C94新刊 8/21(火)から発送開始予定です!

modestcute.booth.pm


■既刊情報

【C93新刊】

 

tsubame30.hatenablog.jp

 

サンクリ73新刊】
エロゲー業界を読み解く時系列分析

tsubame30.hatenablog.jp

 

 

 

■ModestCuteとは?

同人サークル「ModestCute」はエロゲー×統計な同人サークルです。
ErogameScape-エロゲー批評空間-のデータを解析してコミケで本を出したりしてます。

 

■旧ブログはこちら

過去の解析やお酒の話など
http://tsubame30.exblog.jp/

tsubame30.exblog.jp


■中の人のTwitterはこちら

なにかご連絡あればこちらまでどうぞ
twitter.com

 

機械学習で抜きゲーか非抜きゲーかを判断させる試み お試し版

ErogameScapeの欠損を機械学習で補完できないかという試み。名づけて、エロスケ欠損補完計画!
今回は単層パーセプトロンにより、gamelistのokazu列の欠損の補完を試みます。つまりは、抜きゲーか非抜きゲーかの判定をさせようというわけです。
まだまだ機械学習pythonもビギナーなので、探り探りのお試し版です。


特徴量にはPOV入力割合を使います。
過去の同人誌の結果も踏まえつつ、今回は
「女の子に襲われちゃう」「SMのあるゲーム」の入力割合の和
「シナリオがいいゲーム」「キャラを取り巻く世界観がよいゲーム」の入力割合の和
の2つを特徴量として使います。

 

学習の対象データは「どちらの特徴量もその値が0でない」「okazuがNULLでない」ものとしました。該当が5891件あり、このうち、300件を学習データに、残る5591件をテストデータとして使います。
5891件について特徴量をSQLで入手し、値を標準化。ランダムに300件を抽出して学習データとしました。

 

学習データ300件について散布図をみてみましょう。

f:id:tsubame30:20181002214724p:plain


横軸は「女の子に襲われちゃう」「SMのあるゲーム」のPOV入力割合の基準値縦軸は「シナリオがいいゲーム」「キャラを取り巻く世界観がよいゲーム」のPOV入力割合の基準値です。
青い○は抜きゲー橙の△は非抜きゲーを指します。
シナリオ系のPOVが多い右側は、青い非抜きゲーが多く、
エロ系のPOVが多い上側は、橙の抜きゲーが多くなっています。

 

ここで、抜きと非抜きを分けれるような境界線をパーセプトロンで探します。
アルゴリズムおよびソースコードは、『夢見る機械学習 回帰・パーセプトロンpython実装入門』(著:金城俊哉/秀和システムのダウンロードデータをほぼそのまま拝借しました。重みの更新ループ数を変えたくらいでほとんどそのままです。相場もよくわからないので適当に3000回ループさせてます。

 

データがはっきり線形分離できるようなものでないからなのか、はたまたそういうものなのか、3000回更新しても値に再現性はありません。ひとまず3000ループでの学習を3回個別に記録しました。

f:id:tsubame30:20181002215535p:plain

f:id:tsubame30:20181002215625p:plain

f:id:tsubame30:20181002215627p:plain


毎回微妙に傾きが異なり、再現性はないですが、まあそれっぽく分けれそうなところに境界線を引くことができました。

 

 

得られた境界線で、テストデータ5591件を分類し、正解率を調べます。

f:id:tsubame30:20181002220109p:plain

 

各回とも微妙に傾きは違いますが、正解率やF値に劇的に変化はありません。
正解率は75%程度、F値は78%程度です。相場はわかりませんが、たぶんこのままでは使い物にならんでしょう。

でも、正直もっと正解率は低いと思っていました。
特徴量を工夫すれば、もっと高い正解率は出せそうな気がします。


ただ、単層パーセプトロンで粘るよりは、いろんな手法を一通り経験したほうがいろいろとよさそうです。ロジスティック回帰か、ニューラルネットか、SVMか、ランダムフォレストか……。

 オレはようやくのぼりはじめたばかりだからな このはてしなく遠い機械学習坂をよ……。

 

 

 

C94新刊は『エロゲー統計学[マーケティング編2] with 枯れない世界と終わる花』です。

コミケまであと2週間を切りました。

かろうじて修羅場を乗り越えたので告知です。

 

 日時:8月12日(日)コミックマーケット94 3日目
 場所:東5ホール "ホ"-27b
 サークル:Modest Cute

 

■新刊■
エロゲー統計学マーケティング編2] with 枯れない世界と終わる花
 B5サイズ62ページ  頒布価格 800円

 

f:id:tsubame30:20180731001640p:plain

 

ErogameScapeのデータを使った統計解析をまとめた、当サークルおなじみのスタイルの本です。

今回はマーケティング編2と銘打って、シナリオ重視、イチャラブ好き、S型抜きゲーマー、M型抜きゲーマーなどさまざまなタイプがあるエロゲーマーが何を好み何を語るのかを統計解析で解き明かします。

 

具体的には、

ここ10年のエロゲーのトレンドを時系列順に追ったり

f:id:tsubame30:20180730224131p:plain

                ↑「キャラ」「ストーリー」系のPOV登録が減少し、

                  「年上おっぱい」「寝取られ」系のPOVが増加しているの図

 

ユーザーを7タイプに分けてどんなゲームとマッチングしているかを調べたり、

f:id:tsubame30:20180730224653p:plain

                   ↑「ゲーム×シナリオ型」のユーザーはアリスソフト

                    「恋愛×シナリオ型」のユーザーはHARUKAZE、

                    「エロ型」のユーザーはアトリエかぐやをやっているの図

 

ユーザーの7タイプごとに長文感想をテキストマイニングにかけたり、

f:id:tsubame30:20180730224849p:plain

                     ↑「ゲーム×シナリオ型」のユーザーは、”プレイ時間”

                      「エロ型」ユーザーは”Hシーン”の”シーン数”が

                      「シナリオ型」は”ネタバレ”が気になるの図

 

と、いろいろなことをやっています。

今までの集大成のような1冊になったと思っています。

本のサンプルは以下のPixivリンクから。

 

www.pixiv.net

 

 

というわけで、当日はよろしくお願いします。

今年は暑さが異常なので、体調管理的なところに不安を感じております。

みなさんもお気をつけて良いイベントにしましょう。

後日BOOTHでも取り扱いますので、イベントに来れないという方もぜひよろしくおねがいします。

 

 

POVの入力傾向でエロゲーを9種類に分類してみた話

以前マーケ編で、POVを30の因子に縮約しましょうというネタをやりました。
その結果をつかって、マーケ編ではユーザーを分類しましょうという話をしましたが、消費者の分類だけでなく、商品の分類もできるのでは? という着想を得たのでやってみました。

 

2008/01~2018/04発売のPOV(A評価)登録数15を超えるものを対象として、kmeansクラスター分析を行いました。
今回クラスター数は適当に9でやってみました。
結果は↓から。(Googleスプレッドシートです)

エロゲーをkmeansクラスター分析で分類してみた

 

リンク先の表の値は、各クラスターに分類されたゲームの各Factorの平均値です。
数字の大小比較がしにくいので、セルや文字の色を変えてます。

 値を省略した結果は下の画像のようになります

f:id:tsubame30:20180526222730j:plain

 特徴がもっとも出ているのはクラスター4です。「ストーリー」「バトル」「インテリ」「不幸病弱」の値が非常に大きく出ています。燃えや考察や泣きなどがウリのシナリオ重視型のゲーム郡だと考えられます。


 クラスター5は、「恋愛」「絵」の値が非常に大きくなっている恋愛重視型のゲーム郡だと考えられます。「ストーリー」の値がさほど大きくないのがシナリオ重視型との決定的な違いですね。


 クラスター6は「ゲーム性」「バトル」の値が大きいゲーム性重視型と考えられます。「ファンタジー」との親和性が高いのも特徴的ですね。


 クラスター2は、シナリオ型・恋愛型・ゲーム性型の中間のような傾向が現れています。これらは非抜きゲーの中間層であると考えられます。


 ここからは抜きゲーがらみのクラスターになっています。
 クラスター3が「ハードエロ」「触手」「痴漢」で高い数値を示しています。エロ特化の中でもドS系のゲーム群であると考えられます。


 一方クラスター9は、「M要素」「妹・姉」が大きく、「アンチロリ」が最も低くなっています(つまりロリ傾向が最大)。エロ特化の中でもM系のゲーム群で、雰囲気が比較的明るいゲームが多くなっています。


 クラスター1は、これらの中間の傾向が現れており、抜きゲーの中間層と考えられます。


 残るクラスター7と8が数値だけ見ると解釈が難しく難解ですが、具体的なラインナップから後知恵的に読み解いてみましょう。
 クラスター7は、『euphoria』『媚肉の香り』『巨乳ファンタジー』など、エロとシナリオとのバランスで評価されているゲームが並んでいます。今回、POVの入力"割合"を使っているので、シナリオを評価するPOVとエロを評価するPOVがともに入力された結果、Factorの値の特徴的な部分が潰れてしまったと考えられます。
 クラスター8は、『ToHeart2AD』『つよきす2学期』『でにけり』など、ネガティブな評価が目立つゲームが並んでいます。「ネガティブ」が大きく出ているちょっと残念なゲーム群であると考えられます。

 

 

最近のゲームがこの9分類のどれにあてはまるかを見てみましょう。
2017・2018年それぞれについて、データ数で上位3つずつ並べて直感どおりかを確認します。

f:id:tsubame30:20180526221930j:plain

将軍様はお年頃』がゲーム性重視型なのは変な感じがしますけど、概ね感覚どおりに分類されているように思います。
今年はまだドS抜きゲーに分類されているものが出てきていません。今後に期待ですね。(あるけど、POVが15に到達していないだけかも・・・)


結構この時点でちゃんと分かれたなーと満足している部分もあるのですが、これはとりあえずやってみたってだけの結果です。
「ネガティブ」を説明変数として使うのが適切なのかというとあやしい感じがします。内容じゃなくて評価の傾向になっちゃってますし。
説明変数やクラスター数変えちゃうとまったく違う結果になることもあるので、もうちょっと試行錯誤が必要な気がしてます。

 

 


最後に詳しく解析方法を書いて終わりにします。

f:id:tsubame30:20180526222120p:plain

① 以下のSQLでゲームに登録されているPOVをすべて取得して、エクセルのピポッドテーブルで行列の形にします。行総数に対する割合で集計したものを用いました(行列A)。

SELECT p.game, p.pov
FROM povgroups p
JOIN gamelist g
ON p.game = g.id
WHERE p.rank = 'A'
AND g.sellday BETWEEN '2008-01-01' AND '2018-05-01'


② 行列Aと、マーケ編でのPOV縮約の結果(行列B)を掛け算して、ゲーム×30因子の行列を導きます(行列C)。これをRを用いてkmeansクラスター分析にかけました。

 

POV「声がいいゲーム」と結びつきが強い声優さん

POVとクリエイターを結びつけてなにかできないかなぁと考えて、ちょっとやってみました。

 

集計ルールは、以下のSQLで行いました(太字の部分でゲーム発売日の条件を適宜変えています)。

SELECT c.name, COUNT(c.name)
FROM povgroups p
   JOIN shokushu s
   ON p.game = s.game
   JOIN createrlist c
   ON s.creater = c.id
   JOIN gamelist g
   ON p.game = g.id
WHERE p.pov = 29
   AND s.shubetu = 5
   AND g.sellday BETWEEN '2015-01-01' AND '2017-12-31'
GROUP BY c.name
ORDER BY COUNT(c.name) DESC
LIMIT 20

 

わかりやすく言えば、ユーザー①がゲームXに対して「声のいいゲーム」POV入力をした場合、そのゲームXに出演されている声優さんすべてに1票が入るという形です。

f:id:tsubame30:20180216223002p:plain

これを全てのユーザーのPOV入力を声優さんへの票と考えて集計しています。

これをゲームの発売日年代を3年ごとに区切って集計しました。

 

 

■2003~2005年発売作品について

f:id:tsubame30:20180216223021p:plain

集計ルール上、特定タイトルの影響は出るとは思いますが、それにしてもなんという「つよきす」感。

 

 

■2006~2008年発売作品について

f:id:tsubame30:20180216223048p:plain

北都南さん、一色ヒカルさんの2強そのままに風音さん、安玖深音さんの支持が厚くなってきます。人気もあるかもしれませんが、出演数自体が違いますからね。

この区間は票数自体がめちゃめちゃ多くて、このころのErogameScape、ひいてはエロゲー業界全体の盛り上がりを感じさせます。

 

 

■2009~2011年発売作品について

f:id:tsubame30:20180216223104p:plain

ゆかり教育の時代。

 

 

■2012~2014年発売作品について

f:id:tsubame30:20180216223134p:plain

レジェンド桐谷華さん爆誕。

個人的にはこのくらいの感覚から時間が止まっています。

 

 

■2015~2017年発売作品について

f:id:tsubame30:20180216223210p:plain

ご存知秋野花さん、遥そらさんが強いですが、桐谷華さんと澤沢砂羽さん合せるとトップになっちゃうという恐ろしさ。

え? なんでその二人足したのって? ……な、なんででしょうかね……。

しかしPOV数全体、かなり少なくなってますね…。

 

コミケ93レポート

 ちょっと旬はすぎてしまいましたが、コミケであったことを記録しておきたいなと思います。


 コミケでのサークル参加も気付けばもう4回目ということで、優雅に松屋朝食をキメてからのんびり来たのですが、いざついたら、正面階段での入場制限がかかる5分前というギリギリの到着になって冷や汗かきました。
 次回はもう30分早く起床しないといけないね。慢心ダメ。


 今回は頒布物が5種類と多かったので、ダイソーのカラーボードで工作した本立てを準備していきました。


参考↓

 作るのはめっちゃめんどくさかったけど、効果は高かったように思う。
やっぱ本を立てるのは、ディスプレイ的に大事だ。

 


 開幕一番最初にいらっしゃったのが、緒乃ワサビさんの代理でいらっしゃったという方でした。
 ワイの作った本が……原作者さまのところに……いく……だと……。同人作家的には本懐のひとつなのではないか思います。ふぉおおおおお。


 ツイッターでお世話になっている方が来てくださったり、またご挨拶に伺ったりしてきました。これぞイベントの醍醐味です。既刊から追っかけてくださる方もいらっしゃるようで、ありがたい限りでございます。プリッツ差し入れてくださった方、ありがとうございます。おうちでお酒のおつまみにしています。


 今回唯一女性で買ってくださった方がいたのですが、
 なんだかどこかで見たことある方ような……。あれはラプラシアンの生放送…? 電妄…? いや、まさかそんな……。
 などどゴチャゴチャ考えていたために、「もしかして水野七海さんですか?」の一言が出ませんでした。
 後日、水野七海さんのツイッターの写真にウチの新刊を発見し、どうやらご本人だったらしい……と、もうびっくりでありました……。


 イケメンな外国人の方が流暢な日本語で新刊を2部買ってくださったことが印象に残っています。こんなこと過去にはなかったですよ。
 キックスターターのときも思いましたけど、ニューリンの海外人気、想像以上にすごいですね。気になってアクセス解析してみたところ、ウチのブログの訪問者の12%は海外からみたいです。


 今回、初の東7のスペースを頂いたのですが、もうこれが寒い!マッハ寒い!
 まだ内側でマシな方とはいえ、多方面に入り口があり風通しがめっちゃよくて寒いのなんの。冬で7・8配置されたらマフラー&ブランケット必須です!

 


 とまあそんな感じで、いろいろな方に来ていただけて、びっくり&びっくりでありました。毎回修羅場するたびに、もう次は無いな……と思いながら作業してて、引退詐欺みたいな感じでやっていますが、原稿はしんどくてもイベントはやっぱ楽しいんですよね。
 次回のことは何にもわからないですけど、いいネタみつかったらまた何かやりたいですね。

 

 

C93頒布物の委託&再販について

改めまして、あけましておめでとうございます。
2018年も、当サークルをよろしくお願いいたします。

 

C93頒布物の委託&再販についてのお知らせです。


■C93新刊
エロゲーマーのための統計学 with ニュートンと林檎の樹

f:id:tsubame30:20171215150236p:plain

こちらは、コミケでの残部をCOMIC ZINさんにて委託することを予定しています。
まだ、COMIC ZINさんのほうに全く連絡をしていないので、いつからになるかはまだわかりません。しばしお待ちいただけたらと思います。


サンクリ2017夏新刊
エロゲー業界を読み解く時系列分析

f:id:tsubame30:20171215144959p:plain

こちらは、完売してしまったのですが、イベント会場でもご要望を頂いたので、
思い切って再販して、同様にCOMIC ZINさんにて委託をしようと思います。
印刷所にはこれから依頼するので、こちらも少しお待ちいただけたらと思います。
あまり数は刷らないので、お早めにお求め頂けたらと思います。

 


エロゲー統計学 マーケティング編・因子分析編・テキストマイニング

f:id:tsubame30:20171215144032p:plain  f:id:tsubame30:20171215142414p:plain  f:id:tsubame30:20171215141323p:plain

こちらは再販分も完売してしまいました。再々販の予定はありません
DLsiteさんにて電子書籍(pdf)でのDL販売をしようかなと画策しています。

 

正直なところ、既刊がすべて捌けることを全く想定していませんでした。
ありがたい反面、手に入らなかった方への対応が少し遅れますことをご容赦ください。