这便是UC伯克利大学带来的最新作用,让机器人直接在实践环境中练习学习,不再依赖于模拟器。
以及一个具有计算机视觉的小机器人,在自己探索2小时后,能丝滑地滚动到指定方位。
第二步,把这些数据传输到Replay Buffer。这一进程便是使用历史数据进行练习、“总结经历”,高效使用收集到的样本。
第三步,World Model会对已有经历进行学习,然后“脑补”出战略。
第四步,再用艺人评论家(Actor Critic)算法来提高战略梯度法的功能。
然后循环往复,将现已提炼出的办法再使用到机器人身上,最终到达一种“自己探索学习”的感觉。
它的核心思念是以为人类是根据已有经历,形成了一个心思国际模型,咱们所做的决议和举动都是根据这个内部模型。
比方人类在打棒球时,做出反响的速度远比视觉信息传到达大脑中的快,那么在这种情况下还能正确回球的原因,便是由于大脑现已做出了天性的猜测。
此前,根据World Model这种“脑补”的学习办法,谷歌提出了Dreamer这种可扩展的强化学习办法。
它包含一个视觉感知组件,能将看到的图画压缩成一个低维的表征向量作为模型输入。
最终,还包含一个决议计划组件,它能根据视觉感知组件、决议计划组件的表征向量,决议采纳怎样的动作。
不难发现,其间World Model Learning部分的逻辑便是一个经历堆集的进程,Behavior Learning部分则是一个动作输出的进程。
一般来说,练习机器人的惯例办法是强化学习,经过重复试验来调整机器人的运作。
可是本文作者以为,模拟器练习办法在准确性方面的体现仍是不够好,只要实在的环境才能让机器人到达最好的作用。
从效果来看,在练习机器狗的进程中,只花10分钟时刻,机器狗就能习惯自己的行为了。
在机械臂练习进程中,这一新办法还克服了视觉定位和稀少奖赏的应战,几小时内的练习作用显着优于其他办法。
他现在是UC伯克利电气工程和计算机科学教授,伯克利机器人学习试验室主任,伯克利AI研究院一起主任,曾参加过OpenAI。
与此同时,Goldberg仍是一位艺术家,是UC伯克利艺术、科技文明研讨会的奠基人。
原标题:《新出世的机器狗,打滚1小时后自己把握走路,吴恩达开山大弟子最新作用》
本文为汹涌号作者或组织在汹涌新闻上传并发布,仅代表该作者或组织观念,不代表汹涌新闻的观念或态度,汹涌新闻仅供给信息发布渠道。请求汹涌号请用电脑拜访。
注:产量根据不同物料,进料粒度等因素其结果将有所不同