训练200局目前能吊打最简单ai,读取6帧画面,大概间隔50-150ms,采取两层卷积神经网络加空间注意力处理整体画面(1x100x100灰度图),两个两层卷积神经处理敌我人物附近(20x20灰度图)作为敌我动作感知,一个全连接处理敌我坐标以及相对距离,然后合并给lstm输出q表(19个动作),没有输入怒气值和能量值而是通过动作mask剔除无效动作(当前可用动作为空则模型不输出动作并不纳入记忆库,若怒气值或能量值不满足释放大招或查克拉,模型选择除大招或查克拉之外的最优动作)避免污染记忆库。 要想打败更高级ai,除了需要更多探索以外需要学习人类高质量动作以及内置强ai学习,或者训练多个ai互相对战并且使用遗传算法筛选对手池




换一换 































