第29回 世界コンピュータ将棋選手権 大将軍(たいしょうぐん) アピール文書 開発者 横内 健一 横内 靖尚 ○大将軍の概要 評価関数に主眼をおいた将棋ソフトです。 過去には4駒の位置関係(KPPP:N4(2013) / KKPP:N4S(2013-2015))を評価関数に使用していました。 現在は、学習作業の効率を考慮し現在は3駒関係の評価関数を用いています。 ○大将軍の特徴 評価関数の作成に関しては、以下の点を工夫しています。 (評価関数は、以下の2ステップの手順にて学習しています)  1.プロの棋譜からの学習 いわゆるBonanzaメソッドをベースに、手番の評価やミニバッチの手法を取り入れています。 ミニバッチを用いることで、学習が安定し、短時間で学習の成果を確認することができます。 手番に関する評価は、3駒に手番加えたKKPT型を採用しています。KPPT型よりも計算コストが小さいため、 10%程度探索速度が向上します。 2.自己の探索結果からの強化学習 プロの棋譜からの学習において勝率が飽和したところで、浅い探索結果と深い探索結果の評価値を用いて、 評価値の不整合を修正していきます。 学習させる局面により勝率に影響するようですが、とのように設定するとよいかは今後の課題です。 ○ライブラリの使用と実装方針 やねうら王,elmoライブラリを使用します。選定理由としては、評価関数の開発に注力するために、 探索部分はライブラリを使用して他のソフトと同等レベルをキープしたいと考えました。 今日では、プロの棋譜を使わなくても評価関数を作成することが可能ですが、本ソフトでは、 従来手法の学習結果(ウナギ屋のタレ)を活用していきます。