• 做网站18609840880

OpenAI和DeepMind的新算法让未来的人工智能更安全

发布时间:2018-10-09

OpenAI和DeepMind的研究人员希望利用一种能从人工反馈中学习的新算法,使人工智能更安全。

这两家公司都是强化学习领域的专家。强化学习是机器学习的一个分支,即在给定的环境下,如果人工智能系统做出正确行为,那么就给予奖励。目标通过算法来制定,而人工智能系统通过编程去寻求奖励,例如在游戏中赢得高分。

在教会机器玩游戏,或是通过模拟来驾驶无人车的场景下,强化学习非常成功。这种方法在探索人工智能系统的行为时非常强大,但如果编死的算法出现错误,或是产生不必要的副作用,那么也可能非常危险。

发表至arXiv的一篇论文描述了一种新方法,有助于预防此类问题。首先,人工智能系统在环境中产生随机行为,预期的奖励基于人工判断,而这将被反馈至强化学习算法,以改变人工智能系统的行为。

研究人员将这种技术应用至一项训练任务。关于人工智能行为的两段视频被发给人工,而人工将判断哪种行为干得更好。

通过这种方式,人工智能系统可以逐渐学会如何追逐奖励,通过更好地解释人工的评判来学会达成目标。这样的强化学习算法会调整自身的行为,并不断寻求人工的认同。

在这项任务中,人工评判者只花了不到1小时时间。然而对于更复杂的任务,例如做饭或发送电子邮件,那么还需要更多的人工反馈。这样做可能是不经济的。

论文的共同作者、OpenAI研究员达里奥·阿莫德伊(Dario Amodei)表示,减少对人工智能系统的监督是未来可能专注的一个研究领域。

他表示:“从广义上说,半监督学习技术在这里可能会有帮助。另一种可能的选择是提供信息密集的反馈形式,例如语言,或者让人工指向屏幕的特定部分,以代表良好行为。信息更密集的反馈或许将帮助人工减少与算法沟通的时间。”

研究员在其他模拟机器人和Atari游戏中测试了他们的算法。结果表明,机器某些时候可能取得超人的成绩。不过,这在很大程度上依赖人工的评判能力。

OpenAI在博客中表示:“关于什么行为是正确的,我们算法的表现与人工评判者的直觉一样好。但如果人工对于任务没有很好的把握,那么可能就无法提供较多有帮助的反馈。”

阿莫德伊表示,目前的结果仅限于非常简单的环境。不过,对于那些奖励难以量化的任务,例如驾驶、组织活动、写作,以及提供技术支持,这可能会很有帮助。

我们的优势

更多+

多年互联网服务经验
大连网站制作团队
中小型企业互联网供应商
服务行业领域超过70个
品牌传播与互联网技术并重

公司介绍

更多+

  网站建设、品牌推广品牌公司:大连新图闻科技有限公司是一家互联网服务提供商, 企业网络服务品牌,也是企业邮箱品牌“盈世”的大连地区代理商。公司成立于2007年, 致力于为企事业单位及个人提供互联网解决方案。公司服务项目包括网站建设、网络营销推广、 宣传册设计、商业摄影、企业邮箱等,帮助客户高速应用互联网技术,提高企业综合竞争能力。

联系我们

更多+
  • 咨询热线

    咨询热线:186-0984-0880

  • 市场部 : 8001@newtwowin.com 业务联系,业务需求请发到此邮箱.

  • QQ咨询

    QQ咨询: 94091176

  • 邮箱

    客服部:xxz@newtwowin.com

  • 地址

    地址:大连市沙河口区西安路罗斯福B座3109

我们的技术

更多+

  在我们的对手消耗大量的时间停留在碎片化的互联网设计或者程序实现的时候,我们已经开始把数 字化品牌建设和网络传播进行了整合。只有通过整体的互联网品牌分析,帮助客户进行互联网品牌 建设,并传播企业品牌,并围绕品牌树立品牌价值,提升企业与用户的互相交流,与用户品牌交互,让 用户能找对的方法去解决问题。传播品牌,激起消费者品牌意识,在这过程中创造价值,这是我们成 功的秘诀,也是我们帮助用户成功的诀窍,更是成就好的品牌的一条直达线。

《中华人民共和国电信与信息服务业业务》工业和信息化部 辽ICP备09023418号-18
版权所有:大连新图闻科技有限公司