2024年の電竜戦に引き続き、深層学習モデルの効率的なアンサンブルと棋風調整の研究を行います。 2024年の電竜戦では、メモリ6GBのゲームノートPCで対局+振り飛車縛りという厳しい条件にも関わらずA級リーグ入りを達成したことを鑑みると、深層学習のアンサンブルには将来性があると考えています。 # 今年はノートPC参加に賞金があると聞いたので全力でノートPC最強の座を取りに行きます! 将棋などのゲームAIにおいて、アンサンブルの有効性は至るところで示されている一方で、限られた計算資源で効果的なアンサンブルを行うにはいくつかの技術的な課題を解決しなければいけません。将棋AIであれば ・時間制御をどうするか ・ponderをどうするか ・MultiPVなどの複数手表示を行えるような設計は探索効率の低下をもたらす(やねうら王などのmin-max木を使う場合は特に) ・そもそも計算資源がもったいない(MultiPonderは極めて有効な手段である一方で並列計算はコストが高い) ・アンサンブルの比率は必ずしも1:1にしたいわけではない(重み0.3ぐらいがいいみたいな場合をどうするか) といった問題があります。前回の電竜戦では複数の深層学習モデルの合議方法を見直すことで単一のGPUで動くアンサンブル手法を開発しました(現在論文執筆中)。 今回のWCSCではこれに加えて ・特定の棋風を狙って出すことができないか に挑戦します。振り飛車をやらせる代表的な方法は定跡などで制限をかけることですが、探索のルールベースで特定の棋風を無理やり指させる手法も試みられています 例:最強の振り飛車ソフトを作りたい! https://saihyou.hatenadiary.jp/entry/2025/02/27/200039 しかし、こうしたアプローチは人間が普段考えているようなより柔軟な棋風調整にはマッチしていません。 こうした問題を解決するには、特定の棋譜を起点にして、その棋風への類似度を評価値へのボーナスとするようなアプローチが有効であると考えられます。 しかし、評価値へのボーナスは探索部に埋め込むと探索速度の低下を招きます。また、探索終了後に手を採択する際の補正校として用いるとするならばMultiPVへの対応が必須となります。 こうした問題をバランス良く解決し、特定の棋風を効果的に指しこなすようなルーチンの開発を目指します(失敗したらゴメンナサイ)