高度なオプションの設定

[定数フィールドを無視] をオンにすると、各レコードで値が同じフィールドがスキップされます。
[p 値を計算] をオンにすると、パラメータを予測するための p 値が計算されます。
モデルの作成時に共線列を自動的に削除するには、[共線列を削除] をオンのままにします。これにより、返されるモデルでは係数が 0 になります。
このオプションは、[p 値を計算] がオンになっている場合は常にオンにする必要があります。
定数項 (切片) をモデルに含めるには、[定数項 (切片) を含める] をオンにします。
[共線列を削除] がオンの場合は、このオプションを必ずオンにする必要があります。
ドロップダウンリストから [ソルバー] を選択します。COORDINATE_DESCENT および COORDINATE_DESCENT_NAIVE が、現在試験的に使用されていることに注意してください。
AUTO

入力データとパラメータに基づいてソルバーが決定されます。

COORDINATE_DESCENT

最も内側のループにおける循環座標降下法の共分散更新バージョンを使う IRLSM。

COORDINATE_DESCENT_NAIVE

最も内側のループにおける循環座標降下法のネイティブ更新バージョンを使う IRLSM。

IRLSM

予測因子が少数のときの問題や、L1 ペナルティによるラムダ検索の問題に最適です。

L_BFGS

多数の列が含まれるデータセットに最適です。
[アルゴリズムのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテストデータとトレーニングデータに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドを "0" のままにします。
相互検証を実行する場合は [N フォールド] をオンにし、フォールドの数を入力します。
相互検証を実行する場合は、[フォールド割り当て] をオンにしてドロップダウンリストから選択します。このフィールドは、[N フォールド] に値が入力済みで、[フォールドフィールド] が指定されていない場合にのみ適用可能です。
AUTO

オプションの自動選択をアルゴリズムに任せます。現在、[ランダム] が選択されます。

Modulo

データセットをフォールドに等分し、シードを基準としません。

Random

データを n フォールドのサブセットにランダムに分割します。大きなデータセットに最適です。

Stratified

分類問題の応答変数に基づいて、フォールドを層化します。データセットをトレーニングデータとテストデータに分割する際に、観測値を複数のクラスからすべてのセットに均等に分散します。これは、クラスの数が多く、データセットが比較的小さい場合に便利です。
相互検証を実行する場合は、[フォールドフィールド] をオンにして、相互検証フォールドインデックス割り当てを含むフィールドをドロップダウンリストから選択します。
このフィールドは、[N フォールド] と [フォールド割り当て] に値が入力されていない場合のみ適用可能です。
[最大反復回数] をオンにして、実行する必要があるトレーニング反復回数を入力します。
[目標イプシロン] をオンにして、収束のしきい値を入力します。この値は 0 ～ 1 の間でなければなりません。目標値がこのしきい値に満たない場合、モデルは収束します。
[ベータイプシロン] をオンにして、収束のしきい値を入力します。この値は 0 ～ 1 の間でなければなりません。目標値がこのしきい値に満たない場合、モデルは収束します。現在のベータ変化の L1 正則化がこのしきい値に満たない場合、収束の使用を検討してください。
[OK] をクリックして、モデルと設定を保存するか、次のタブで操作を続行します。