「習甦」

【評価関数】
　玉の位置に対する各駒の位置と各升の利き数を特徴量とするニューラルネットワーク
　※特徴量の次元数は (2110+4*4*81)*81 = 275886

【訓練データ】
　初手から5手目までMultiPV 16として16^5局の自己対戦棋譜を数セット作成
　※着手決定の難易度を定式化して局面に応じて探索ノード数を制御

【機械学習方法】
　評価値の推移をフィードバックして推定された勝率を割引報酬とした強化学習
　※平均のみを考慮したBatch Normalizationの簡易版を適用