機械学習リニューアル

2022.11.24

概要

これまでの機械学習モデルを構築する機能を一新。

より簡単、より高精度、より透明。新しい機械学習機能をリリースいたしました。

特徴は大きく4点です

  • 全自動探索が可能。オートML

  • 柔軟な探索設定が可能。マニュアルML

  • さらなる高精度の可能性。アンサンブルML(βver)

  • 学習モデルの期待精度、解釈用の情報をボニートくんで可視化

全自動探索が可能。オートML

  • 目的変数列と説明変数列を設定するだけの簡単設定

  • 自動で前処理手法、学習アルゴリズム、学習パラメータを探索し、精度を最大化する

自動で行われる前処理

  • 欠損値処理

  • 数値列の変換(boxcox変換など)

  • 文字列の変換(one-hot encodingなど)

  • 数値の外れ値処理

  • 特徴量生成(列同士の四則演算による新規列生成)

  • 特徴量選択

自動で選択される学習アルゴリズム

  • ランダムフォレスト

  • XGBoost

  • LightGBM

  • CatBoost

  • SVM

  • 上記の2つ以上をブレンディングしたアンサンブルモデル

柔軟な探索設定が可能。マニュアルML

  • 目的変数列と説明変数列以外に、学習アルゴリズムやパラメータ、前処理手法まで柔軟に設定が可能

  • 複数アルゴリズム、複数手法を設定した場合は、最適な設定を自動で探索

  • 決定木分析、相関分析、などの分析シーンにも活用可能

機械学習パラメータを柔軟に設定可能

前処理手法も簡単設定

さらなる高精度の可能性。アンサンブルML(βver)

  • オートML、マニュアルMLノード内で構築されたモデルを組み合わせて、新しいモデルを構築することが可能。

  • これにより、より高精度、より強固なモデルを構築できる可能性がある。

学習モデルの期待精度、解釈用の情報をボニートくんで可視化

ノード実行後、ボニートくんにて学習モデルの期待精度などが確認できます。

精度検証結果

  • 内部的に行った精度検証により、構築した学習モデルの期待精度などが確認できます。

  • また、独自の指標として「過学習リスク」をスコアリングし、過度なフィッティングを警告します。

  • よく精度確認に用いられる、混合行列や学習曲線なども補助情報として可視化されます。

機械が重視したデータ

  • 機械がどの列のどの値を見てモデルを構築したかを把握することができます。

  • 重要な列を重要度順で確認できます。

  • 列内のどの値、もしくは範囲が分類や数値予測に寄与したのかを可視化します。

学習プロセス

  • 入力データに対して、どういう前処理、学習アルゴリズムを経てモデルが作られたのかを可視化。

  • 内部的に訓練データと検証データに分け、モデルの構築、および精度の検証を行っている工程が確認できます。

精度改善の余地

  • 機械学習モデルの構築において、精度が低い場合は「なぜ低いのか」を把握し改善の手段を検討する必要があります。

  • どの列、その値、どの範囲が精度を悪化させているのか、を可視化。

  • 精度改善のヒントを得られることを期待して開発した独自機能です。

モデル詳細情報

  • 新しい教師あり学習ノードでは、精度を最大化する過程で複数のモデルを構築します。

  • どういうモデルがどういう精度だったのか、その結果どのモデルが選ばれたのか、を確認できます。

最後に

本リニューアルはとにかく機械学習モデル内部を理解できるよう透明化を強く意識して行いました。

設定についても新規の設定画面を用意し、どれだけ簡単に機械学習機能が使えるか、に挑戦しております。

データ活用において、機械学習が当たり前に用いられる世界を目指した今回のリニューアル。ぜひご活用ください。