山下寛人オフィシャルブログ

オイシックス株式会社 執行役員 システム本部長 山下寛人の公式ブログです。

ポジティブな書き込みだけを抽出する

オイシックスのサイトでは商品の感想を書き込むことができます。地味な機能ですが創業からずっと今でも社内では重宝されています。お客様のニーズや不満がよくわかるからです。ここに書き込まれた内容はstaffというメーリングリストに即座に流れます。通称「staffメール」と呼ばれています。そのメーリングリストには100人以上入っていてみんなで常時見ています。

変なメーリングリストの名前といえば、オイシックスの全員宛のメーリングリストは「heyメール」と呼ばれています。社長の高島宏平の「平」が由来ではあるのですがおかしな名前です。オイシックスになる前の学生企業だったときの会社名がCo.Heyだったのがその由来でそのままメーリングリストが残っているのですね。

少し脱線しました。さてスマホでスキマ時間に見るようなものを作りたいなと思っていろいろロジックを考えていました。売り上げランキングなどはいつ集計してもだいたい同じようなものしか出ないので多分毎日見たくなるようなものにはならないでしょう。見るたびに違うものが出てくることが重要です。その中の1つで最近書き込まれた商品の感想というのはどうかと思いました。そこで実際にデータを見てみると、確かに見るたびにいろんな商品が出てきて自分が知らなかったものも結構あっていいのですが、意外とネガティブな書き込みがあります。ハズレをつかまされないためにはそういう情報も有用ですが、見て楽しくなるようなものではないのでポジティブな書き込みだけを抽出したいなと思いました。さてどうすればいいでしょう。

ここですぐにピンと来た人はデータサイエンティスト向きかもしれません。今時のメールソフトには必ずある迷惑メールフィルタのロジックで行けそうですね。いくつかの書き込みの文章をサンプルとしてポジティブなもの、ネガティブなものに分類して学習させます。主に出てくるキーワードの頻度を集計します。で、判定したい文章の中にポジティブなキーワードとネガティブなキーワードがどれくらい出てくるかカウントして係数を掛けてポジティブ度スコアとネガティブ度スコアを出します。そのスコアにもとづき判定します。こういうのはベイジアンフィルタと呼ばれています。