「習甦」

探索
・ルート局面でdf-pn[1]により1Threadで詰みを探索する。
・α-β探索部はStockfish[2]を参考に実装した。

評価関数
・玉の位置に対する各駒の位置と各升の利き数を特徴量とするニューラルネットワーク型の評価関数とした。
・利きのデータ構造については技巧[3]を、ニューラルネットワークのアーキテクチャについてはNNUE[4]を参考に実装した。

評価パラメータの機械学習方法
・5手目までMultiPV 16として16^5局の自己対戦棋譜を数セット作成し、評価値の推移をフィードバックして推定された勝率を割引報酬として強化学習を行った。
・ニューラルネットワークの初期化状態から短時間でパラメータを最適化するためAdam[5]をベースとし、annealingやweight decay[6]等を用いた。

[1] https://ci.nii.ac.jp/naid/110002726401
[2] https://github.com/official-stockfish/Stockfish
[3] https://github.com/gikou-official/Gikou
[4] https://github.com/ynasu87/nnue
[5] https://arxiv.org/abs/1412.6980
[6] https://arxiv.org/abs/1711.05101