[過去ログ] 現代数学の系譜11 ガロア理論を読む31 [無断転載禁止]©2ch.net (805レス)
上下前次1-新
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
243(1): 現代数学の系譜11 ガロア理論を読む 2017/05/09(火)21:15 ID:Bzdtws/g(12/14) AAS
>>240 追加
外部リンク[txt]:www2.computer-shogi.org
elmo アピール文書
(抜粋)
・評価関数
浮かむ瀬の評価関数を更新しています。元の評価関数より強いようです。
> 評価値が自己対局の勝率に近づくように更新しています。
勝率が二項分布に従う場合、評価値はロジスティック分布に従う(※1)だろう、
ということでロジスティック回帰を適用しています(※2)。
単純に最尤推定のロジスティック回帰を適用するのではではなく、
正則化項として深い探索結果を浅い探索結果にフィードバックする手法(※3)を採用しています。
後者の手法を単体で利用する思考エンジンが多いですが、正則化項としても適しており、
手元の実験結果では下記何れよりも強い評価関数を作成可能でした。
・正則化項無のロジスティック回帰のみ
・正則化項(深い探索結果を浅い探索結果にフィードバックする手法)のみ
正則化項には、第4回電王戦トーナメントの†白美神†さんが利用していた同様交差エントロピー(※4)を利用しています。
これは単にロジスティック回帰の損失項が交差エントロピーを使うのが普通なので
両項のオーダーを合わせる意味で利用しています。計算簡単で直感的に値が分かりやすい点も良いです。
探索深さ6、50億局面弱で1回だけ最適化しています。
(※1) GPS将棋: 外部リンク:ipsj.ixsq.nii.ac.jp
下記エンジンでも同様の性質を仮定して利用しています。
ponanza: Twitterリンク:issei_y
技巧 : 外部リンク[cc]:github.com
ただ、Apery(浮かむ瀬)の評価関数はこの点を直接評価していないためか適切に設定されていないと想定されます(以下参照)。
Twitterリンク:Qhapaq_49
elmoの手法はこれをうまく補正していると捉えて良いかもしれません。
(※2) WCSC26の激指の手法を参考にしています。
激指: 外部リンク[txt]:www.computer-shogi.org
ponanza: 外部リンク:cakes.mu
上下前次1-新書関写板覧索設栞歴
あと 562 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.009s