「習甦」 【評価関数】  玉の位置に対する各駒の位置と各升の利き数を特徴量とするニューラルネットワーク  ※特徴量の次元数は (2110+4*4*81)*81 = 275886 【訓練データ】  初手から5手目までMultiPV 16として16^5局の自己対戦棋譜を数セット作成  ※着手決定の難易度を定式化して局面に応じて探索ノード数を制御 【機械学習方法】  評価値の推移をフィードバックして推定された勝率を割引報酬とした強化学習  ※平均のみを考慮したBatch Normalizationの簡易版を適用