機械学習で抜きゲーか非抜きゲーかを判断させる試み　お試し版

ErogameScapeの欠損を機械学習で補完できないかという試み。名づけて、エロスケ欠損補完計画！
今回は単層パーセプトロンにより、gamelistのokazu列の欠損の補完を試みます。つまりは、抜きゲーか非抜きゲーかの判定をさせようというわけです。
まだまだ機械学習もpythonもビギナーなので、探り探りのお試し版です。

特徴量にはPOV入力割合を使います。
過去の同人誌の結果も踏まえつつ、今回は
「女の子に襲われちゃう」「SMのあるゲーム」の入力割合の和
「シナリオがいいゲーム」「キャラを取り巻く世界観がよいゲーム」の入力割合の和
の２つを特徴量として使います。

学習の対象データは「どちらの特徴量もその値が0でない」「okazuがNULLでない」ものとしました。該当が5891件あり、このうち、300件を学習データに、残る5591件をテストデータとして使います。
5891件について特徴量をSQLで入手し、値を標準化。ランダムに300件を抽出して学習データとしました。

学習データ300件について散布図をみてみましょう。

f:id:tsubame30:20181002214724p:plain

横軸は「女の子に襲われちゃう」「SMのあるゲーム」のPOV入力割合の基準値、縦軸は「シナリオがいいゲーム」「キャラを取り巻く世界観がよいゲーム」のPOV入力割合の基準値です。
青い○は抜きゲー、橙の△は非抜きゲーを指します。
シナリオ系のPOVが多い右側は、青い非抜きゲーが多く、
エロ系のPOVが多い上側は、橙の抜きゲーが多くなっています。

ここで、抜きと非抜きを分けれるような境界線をパーセプトロンで探します。
アルゴリズムおよびソースコードは、『夢見る機械学習　回帰・パーセプトロン python実装入門』（著：金城俊哉／秀和システム）のダウンロードデータをほぼそのまま拝借しました。重みの更新ループ数を変えたくらいでほとんどそのままです。相場もよくわからないので適当に3000回ループさせてます。

データがはっきり線形分離できるようなものでないからなのか、はたまたそういうものなのか、3000回更新しても値に再現性はありません。ひとまず3000ループでの学習を３回個別に記録しました。

f:id:tsubame30:20181002215535p:plain