高度なオプションの設定

  1. [定数フィールドを無視] をオンにすると、各レコードで値が同じフィールドがスキップされます。
  2. [p 値を計算] をオンにすると、パラメータを予測するための p 値が計算されます。
  3. モデルの作成時に共線列を自動的に削除するには、[共線列を削除] をオンのままにします。これにより、返されるモデルでは係数が 0 になります。
    このオプションは、[p 値を計算] がオンになっている場合は常にオンにする必要があります。
  4. 定数項 (切片) をモデルに含めるには、[定数項 (切片) を含める] をオンにします。
    [共線列を削除] がオンの場合は、このオプションを必ずオンにする必要があります。
  5. ドロップダウン リストから [ソルバー] を選択します。COORDINATE_DESCENT および COORDINATE_DESCENT_NAIVE が、現在試験的に使用されていることに注意してください。
    AUTO
    入力データとパラメータに基づいてソルバーが決定されます。
    COORDINATE_DESCENT
    最も内側のループにおける循環座標降下法の共分散更新バージョンを使う IRLSM。
    COORDINATE_DESCENT_NAIVE
    最も内側のループにおける循環座標降下法のネイティブ更新バージョンを使う IRLSM。
    IRLSM
    予測因子が少数のときの問題や、L1 ペナルティによるラムダ検索の問題に最適です。
    L_BFGS
    多数の列が含まれるデータセットに最適です。
  6. [アルゴリズムのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテスト データとトレーニング データに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドを "0" のままにします。
  7. 相互検証を実行する場合は [N フォールド] をオンにし、フォールドの数を入力します。
  8. 相互検証を実行する場合は、[フォールド割り当て] をオンにしてドロップダウン リストから選択します。このフィールドは、[N フォールド] に値が入力済みで、[フォールド フィールド] が指定されていない場合にのみ適用可能です。
    AUTO

    オプションの自動選択をアルゴリズムに任せます。現在、[ランダム] が選択されます。

    Modulo

    データセットをフォールドに等分し、シードを基準としません。

    Random

    データを n フォールドのサブセットにランダムに分割します。大きなデータセットに最適です。

    Stratified

    分類問題の応答変数に基づいて、フォールドを層化します。データセットをトレーニング データとテスト データに分割する際に、観測値を複数のクラスからすべてのセットに均等に分散します。これは、クラスの数が多く、データセットが比較的小さい場合に便利です。

  9. 相互検証を実行する場合は、[フォールド フィールド] をオンにして、相互検証フォールド インデックス割り当てを含むフィールドをドロップダウン リストから選択します。
    このフィールドは、[N フォールド][フォールド割り当て] に値が入力されていない場合のみ適用可能です。
  10. [最大反復回数] をオンにして、実行する必要があるトレーニング反復回数を入力します。
  11. [目標イプシロン] をオンにして、収束のしきい値を入力します。この値は 0 ~ 1 の間でなければなりません。目標値がこのしきい値に満たない場合、モデルは収束します。
  12. [ベータ イプシロン] をオンにして、収束のしきい値を入力します。この値は 0 ~ 1 の間でなければなりません。目標値がこのしきい値に満たない場合、モデルは収束します。現在のベータ変化の L1 正則化がこのしきい値に満たない場合、収束の使用を検討してください。
  13. [OK] をクリックして、モデルと設定を保存するか、次のタブで操作を続行します。