--------------------------------------------------------------------------- AobaZero は、AlphaZero の将棋の実験の追試を行うことを最終目的とした将棋人工知能プロジェ クトです。予備実験では、ゼロから開始する強化学習の初期段階で Elo レーティングが毎日 100 以上上昇し続けていることを確認しています。残念ながらこの実験の規模は桁違いに小さく、ニュー ラルネットワークの大きさは約 16 分の1、棋譜生成スピードは約 1000 分の 1 です。 そこで、Leela Zero (https://zero.sjeng.org) のようなユーザ参加型のコンテンツも作成して、 AobaZero の実験の規模を大きくする計画を立てています。選手権までにはこのコンテンツ(棋譜 や学習モデルと実験に必要なコードファイル一式を含む)を公開予定です。elmo を凌駕するよう な棋力を獲得する強化学習の過程を、我々と一緒に観察していきませんか? 将棋の知識を獲得していく過程が面白いので棋譜だけ先に公開しました(2019/03/31)。 http://www.yss-aya.com/aobazero/ github でソース、実行ファイルを公開しています(2019/05/01)。 https://github.com/kobanium/aobazero 使用予定のソースコード: Bonanzaの盤面構造を用いてモンテカルロ木探索を実装し、 OpenCL で GPU を利用する LeelaZero のコードを変更してニューラルネットの計算を行っています。 AobaZeroは以下の4つに分かれます: 1. 棋譜を作成する aobaz 2. aobazを 動かし、棋譜をサーバに送る autousi 3. ネット上のマシンから棋譜を集め、ネットワークの重みを配布するサーバ 4. 棋譜をまとめて学習し、ネットワークの重みを作る学習部 予備実験の強化学習の初期段階の観察結果: 1. 駒の動かし方(将棋のルール)を覚える(minibatch 64、最初の2000回の学習で)。 2. 金銀が2段目、王の近くにいると負けにくい、というのを覚える。まだ駒の損得は分かってない(13万棋譜)。 3. 駒を取れば勝ちやすいのがぼんやり分かってる(21万棋譜)。 4. 駒を取られたら取り返すのは少し理解(25万棋譜)。 --------------------------------------------------------------------------