[過去ログ] 【統計分析】機械学習・データマイニング21 (1002レス)
上下前次1-新
抽出解除 必死チェッカー(本家) (べ) レス栞 あぼーん
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
301: (ワッチョイ 5a97-ad2z) 2018/11/30(金)02:11 ID:gAFwEIHo0(1/5) AAS
交差検証についてなんですが、例えばアイリスデータでSVMで3分割の交差検証した時(3分割の平均が)94%〜97%ぐらいばらつきがあると思うのですが3分割の平均をさらに100回の平均とかして評価するって感じでいいんですかね?
304: (ワッチョイ 5a97-ad2z) 2018/11/30(金)08:44 ID:gAFwEIHo0(2/5) AAS
>>303
研究とかで発表するときはどういう値を使ってるのですか?
306(1): (ワッチョイ 5a97-ad2z) 2018/11/30(金)13:00 ID:gAFwEIHo0(3/5) AAS
例えばkaggleとかなら初めからトレーニングデータとテストデータが分かれててテストデータとの答え合せで数値としての精度を用いてます。
自分で1つのデータを用いて精度を出したいときに、データが少なくてテストデータの選ばれ方にかなり影響を受けるというようなとときにはどういう風な値を用いればいいのかっていうのが聞きたいです。
307: (ワッチョイ 5a97-ad2z) 2018/11/30(金)13:02 ID:gAFwEIHo0(4/5) AAS
>>306
テストデータの選ばれ方によって予測精度が全然違うみたいな時です。
309: (ワッチョイ 5a97-ad2z) 2018/11/30(金)16:23 ID:gAFwEIHo0(5/5) AAS
扱ってるデータの性質上データ数が少ないのは仕方ないのです…
今書いてるコードなんですが、
sklearnのcross_val_scoreでcvパラメータに層化分割を渡してます。(StratifiedKFold(n_splits=3, shuffle=True)
これでfor文で例えば100回回すと3つセットのスコアが100個出てきますよね?それで3値の平均のさらに100個の平均って感じで評価基準にしてます。3つセットのスコアの分散がそこそこ大きいのは仕方ないと思ってます。
これで良いのですかね。
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.027s