●NineDayFever

局面評価の極北を目指しています。

2018年の相違点ですが、強化学習に使用する自己対戦棋譜の初期状態生成のため、以前からやっていた自己対戦の勝率に基づいた定跡生成手法を流用しています。定跡生成のため抽出したbookの拡張候補各局面から最低数十局程度の棋譜を生成し(並列処理による結果変動によって結果は異なる)、生成された5千万局程度の棋譜に基づいてelmo方式(勝率からのロジスティック回帰＋クロスエントロピーによる数手先の探索結果の学習)による学習を行うと同時に、勝率に基づいて book 内の各手の採用確率を決定します。

定跡では2017年にえらい目にあったので、Qhapacさんが公開していた定跡を取り込みました。定跡の末端での勝率ベースで更新していく手法なので、他の定跡でもその末端の勝率を求めることで取り込むことができるようになってます。

・ライブラリ選択理由
　2012年ごろにKPP/KKP テーブルで機械学習手法を試そうとした時点では bonanza 以外に選択肢がなかったので、そのまま使い続けています。惰性です。


以下は2017年の内容です。

・対戦中に現れた局面を調べ、機械学習結果の欠陥を探して修正していています。
・三駒関係の各変数を分解して共通する要素を抽出したうえで機械学習することで未知の局面への対応能力を高めています。
・手番を考慮した評価値を使用しています。
・定跡では自己対戦結果から各局面の勝率の分布を推定して各手の採用確率を決めています。
・プログラムはbonanza 6.0にstockfish の手法を取り入れています。