2020年アピール文書 プログラムの基本は初回参加時から使いまわしていて 一般的な手法であるαβ法、ハッシュテーブル、null move等を使っています。 教師無し学習の3駒間評価値を学習させています。 学習方法は強化学習(Q-Learn)です。 去年の学習データは構造が悪かったので今回は修正しています。