こんにちは、Workaholicです。
GWの自由研究として商材屋アカウント判定をするシステムを構築しました。
とりあえず実装が出来ましたので、概要の説明と今後の展開について書き留めておきます。
経緯
開発の理由ですが、単純に「インフルエンサー達って似通ったアイコンしてるな」って思ったからです。顔出しか、イラスト調の顔出し等アイコンだけでも「あっ・・・」って感じ取れますよね。
という事は、機械学習を用いたら結構面白い結果が得られるかもしれません。
今回は「商材屋」と「非商材屋」を対象とし二値分類を行います。※商材屋は「インフルエンサーとして情報商材系を売る人、またそれに準ずる人たち」を私見にて判断しています。簡単に言うと「Workaholic的に怪しい人である可能性が高い人たち」と言う事です。

実装
今回は使い慣れているTensorFlow(1.x系)にて実装を行います。
※細かい話を始めると長文になるでザックリの流れを書きます。
学習
・TwitterからBioとツイート内容を元に「商材屋」か「非商材屋」か私見にて判断、ラベル付けする。
※それぞれ200人分準備する。
・TensorFlowにて実装を行う。
※PythonにてOpneCVでにてアイコンを成形、TensorFlowにて二値分類を行い学習

テスト
・Twitterから集めた「商材屋」「非商材屋」のアイコンの中から、学習しなかった「未知のアイコン(未知のデータ)」をTensorFlowにて「商材屋」「非商材屋」を判断させる。

結果
学習データが400件(商材屋200人、非商材屋200人)、テストデータが50件(商材屋50人、非商材屋50人)で7割程度の正答率でした。急ぎ作成したのでデータセットの少なさは許してください。
※現在学習データを随時増やしています
一応今回のテストデータでは7割の正答率でしたが、非商材屋でも実写アイコンだと不正解率である割合が高かったのでそこ次第で正答率が大きく変わります。(まだまだって感じです。
実写アイコンでも商材屋っぽい雰囲気を判断することが出来るのか?と言うのが今後の課題になるでしょう。


今後の展開
今後の展開としましては、アイコンだけの判断では限界を感じていますので、単純ですがBioやツイート内容を含めて判断できるようにできれば精度も向上するかなと予想しております。
また、だれでも使えるようにする為に、Webブラウザ上にて商材屋判断システム(仮)が使えるようにしたいと考えております。
くだらないもの作ったなって感想ですが、少しでも面白いと思っていただければ幸いです
くコ:彡
※ソースコードの公開は検討中です。ださないかも・・・
コメント