EasyShogi アピール文書 2021.3.30 記 高原順弥 以下の1・2どちらかで出場を予定します。 《1.強化学習をやりたい!》 強化学習の実験場であるOpenAiGymが提供するインターフェースに対応したcshogiで、 DQNアルゴリズムを用いて学習を行ったモデルを使用。 行動価値が最大またはMCTSにて探索(現時点でバグが多い)を行い指し手を決定。 明示的な工夫は特筆するものがなく、自己対局で報酬を得やすいように詰みあり局面からの学習を織り交ぜた。 当初は受け手側は環境でランダムに指し、攻め手側のみエージェントが詰め将棋を学習できるか実験を行ったが、 報酬を得る機会が少なく学習が進まないためエージェント同士の自己対局に戻した。 ローカル環境のCPUのみで学習を継続し、汎化能力は疑問だが、途中図からの対局を繰り返すことで局所的な詰み手順は 学習できることが確認できた。過学習との境の判断は今後の課題。 機械自らが試行錯誤を行う強化学習を体験できとても楽しかった。 《2.GPUを使ってみたい!》 安価にGPUが試せるNVIIA製のJETSON NANO を購入。 計88チャネルの簡易な特徴量(玉の位置、駒種を区別しない位置画像・駒の効き・遠くに及ぶ駒の効き・駒種ごと持ち駒)を用意し、 CNNによる移動後の座標のみを学習するモデルを作成中。 移動後の座標が決まれば、一手先の局面評価値を用いて一意に指し手を決められるようにしたい。 今後オフラインで大会があった場合は、Easyに持ち込めるエッジデバイスで参加をしたいです!