「習甦」 探索 ・ルート局面でdf-pn[1]により1Threadで詰みを探索する。 ・α-β探索部はStockfish[2]を参考に実装した。 評価関数 ・玉の位置に対する各駒の位置と各升の利き数を特徴量とするニューラルネットワーク型の評価関数とした。 ・利きのデータ構造については技巧[3]を、ニューラルネットワークのアーキテクチャについてはNNUE[4]を参考に実装した。 評価パラメータの機械学習方法 ・5手目までMultiPV 16として16^5局の自己対戦棋譜を数セット作成し、評価値の推移をフィードバックして推定された勝率を割引報酬として強化学習を行った。 ・ニューラルネットワークの初期化状態から短時間でパラメータを最適化するためAdam[5]をベースとし、annealingやweight decay[6]等を用いた。 [1] https://ci.nii.ac.jp/naid/110002726401 [2] https://github.com/official-stockfish/Stockfish [3] https://github.com/gikou-official/Gikou [4] https://github.com/ynasu87/nnue [5] https://arxiv.org/abs/1412.6980 [6] https://arxiv.org/abs/1711.05101