IT管理のマメ知識

ITについて個人の感想をアウトプットしているブログ

データ分析~機械学習までの道のり(どこまでやるの!?)

あくまで、中小企業のデータ分析したい場合について:

  • 機械学習というキーワードが独り歩きしていますが、実際の仕事でデータを整理しないければならない場合、どういった考え方で進めるか・どこまでやるべきかについて考察しました。
  • 結論として、データ分析には、いくつかの段階に渡り、その延長線上に機械学習があります。
  • このように整理しておくことで、利用部門から相談を受けたとき、情シス担当者の頭の中では、どの段階までを想定して対応すれば良いか、という話になります。それを探るために利用部門にインタビューすることで、対応の方向性を判断していくことができます。

進め方

簡易データ集計 ~ KPI設定

  • データを集める、データ構造を整理する(足りない項目を補う、重複データを削除する)
  • Excelでピボットテーブルや基本的な集計を行ってみる。 (python+Pandasで、基礎統計量を取ってもOK。)
  • 業務目的に合致するKPIを検討、実際に計算してみる。 (試行錯誤が必要な場合がある。)
  • 時系列・セグメント分け等のKPI値の変化を評価してみる。(試行錯誤が必要な場合がある。)
  • 評価軸が増えるに従って、生成されるKPIデータ量(パターン)が膨大になる。
  • 膨大なパターンの中から、本当に業務上の意味があるパターンを発見するためには、業務内容や現場の事ををより理解していることが好ましい。

データの可視化と共有

  • 一回限りのニーズなのか、業務サイクルの中で繰り返し発生するニーズなのか。
  • 繰り返し発生する場合、BIツール導入を検討すると良い。

▲ ここまでで目的を達成できるならば、これ以上の機械学習まではいらない。

  • 組織内データの場合、そのデータの属性はある程度は予想できることが多い。KPI設定やBIツールでの可視化まで行えれば目標達成となるケースが多いと思われます。

▼ ここから先に、やっと機械学習が登場

本当に機械学習を用いないといけないような業務課題なのかどうか?

  • 例えば、大量データを処理しないといけない場合、常に特徴が変化していくようなデータ。

  • 機械学習以前に、データ整理がされていないといけないことは同じ。

  • 機械学習とは、データ属性の分類付けや特徴の把握であるので、手作業で行ってきたKPI把握までの手順をpythonで行っていることと似ている。ひとり情シス担当者が頭の中で行っていた分類付けや特徴の把握を、python側にやらせているのと同じ。