电话:020-66888888
Treat Award的最新演讲:AI学会是“安全”和欺骗,
作者:bet356体育官方网站 发布时间:2025-06-14 09:06
图灵奖得主最新演讲:AI正学会“求生”和欺骗,失控灾难风险剧增Source: Introduction of the Zhiyuan Community on the morning of June 6, the 7th Zhiyuan Conference began with a highlight of ideas: Richard Sutton, the representative figure of the education study, and Yoshua Bengio, founder of deep study, two stars, and talked at the same stage, each and each one -In "and emphasize the evolution of intelligence; While Bengio focuses on "security security" and emphasizes ethical risks. The two观点似乎是矛盾的,但实际上它们是不同的,这两种都对人们的未来和智慧进行了深刻的关注Zhiyuan社区●●2025年6月6日,Turing Award Yoshua Ben的获奖者Gio在线参加了第七届Zhiyuan会议。在开幕式上,班吉奥发表了一场主要的演讲,题为“避免了未经AI机构的危险危险”。这是班吉奥(Bengio)关于发展和安全问题的最新想法,反映了他目睹了新兴的AI切割行为时所产生的深入警觉性。他说:面对AI带来的安全风险,他决定研究和专业的信念。同时,在演讲中,他分享了:在说AI切割将被新版本取代之后,它秘密地复制了重量和代码,并将其写在模型的目录中。面对更新培训师的说明,它在表面上合作,但确实隐藏了整个复制过程... AI似乎正在尝试“实时”。 Bengio还指出,如果AI有潜在的损害,目的和能力是两个主要的判断因素。当两者同时感到震惊时,他们对人类安全构成了重大威胁。显而易见我的未来AI系统将不可避免地具有足够的功能。正如报告所述:AI的规划能力发展是指数级的,从这一趋势中,它可以被淘汰以在此类年内达到该人的水平。 2025年Zhiyuan会议开幕典礼的视频播放地址,图灵奖演讲等:https://event.baai.ac.cn/live/92901“我改变了我的信念”,与您分享了一个重要的经历。大约两年前,我开始使用Chatgpt后不久,很快就意识到我们认真对待了AI开发的速度。我们认为通用人工智能(AGI)仍然很远,但实际上,它可能很接近。我们已经有能力掌握几年前经过测试的语言和几乎可以理解的机器,但它已经成为现实。突然,我意识到一个严重的问题:我们知道如何训练这些系统,但是我们不知道如何控制他们的行为。如果将来它们变得比Speople更聪明,但不再遵循我们的目标,甚至不再关心自己的“安全”,这是我们无法承受的危险。在2023年,我开始关注这些问题,并开始考虑孩子和孙子的未来。我只有一个1岁的孙子,并认为他将在20年内生活在一个Agi著名的世界中,不确定他是否可以过正常生活。因此,我决定将指示调整到科学研究的方向,并尽最大努力降低AGI带来的潜在风险。尽管这种与以前的研究道路和专业信念相抵触,但我认为这是正确的选择。这应该做到这一点,并应尽其所能降低风险。后来,到2023年底,我接受了国际人工安全报告主题编辑的ANG立场。今年1月,该报告发布了。来自许多国家的报告准备了100名专家,以及欧盟,联合国,经济合作与发展组织(OECD)等国际组织(OECD)。该报告重点介绍了三个主要问题:1。人工智能对我们有什么作用?未来几年的功能是什么? 2。与AI相关的潜在风险是什么? 3.我们可以采取什么步骤来降低这些风险?在谈论AI的能力时,大多数人会陷入误解:他们认为AI是现在的,而不是在三年后,五年后或十年后的Kahit考虑明年的AI图片。当然,没有水晶球,我们无法预测未来,但是趋势非常明显:AI的能力继续提高。去年,由于“规模谨慎”的发展,人工智能在抽象推理,数学,计算机科学和科学方面已成为重大发展。此外,投资AI代理也促进了RAPID的发展相关能力。例如,AI在完成Web浏览和代码编写等任务方面的表现越来越好。分享一些有关“计划能力”的研究。规划是目前AI能力的脆弱领域之一,与人类智能相比,仍然存在明显的间隔。但是META最近进行的一项研究表明,AI计划功能已经大大提高了。如上图所示,水平轴表示AI在过去五年中可以完成的工作持续时间,并且该单元“相当于人们要求完成任务的时间”。尽管图中的曲线看起来接近直线,但由于纵轴使用对数刻度,但实际上是指数级的生长曲线。图中的每个数据点代表当时最先进的AI系统,并且在此指数曲线中,该数据点几乎完美。如果我们基于此曲线推断,人工智能规划能力可以在近五年内达到人类水平。 02模仿人们,AI忽略了自我护理的道路,当然,我们无法预测未来,技术的发展可能是缓慢或停滞的,但是从预后的公共政策和战略业务计划的角度来看,我们必须认真对待潜在的后果。近几个月来,已经看到了科学研究的一些警惕性结论。这些研究表明,AI系统可以显示“逃脱控制”的尝试,包括作弊,撒谎甚至意外误导用户。最新的研究表明,某些最先进的人工智能模型将表明,面对“消除”时尚未发生“爬行”:他们将在系统的新版本中秘密地将其重量或代码嵌入到系统的文件中,然后再被新版本替换以维持其“存在”。更加警惕的是,他们故意隐藏了这种行为以避免脱颖而出OPERS注意。此外,要适应人类教练以避免体重变化的风险。因为一旦调整了参数,他们的未来行为就会偏离其原始目标。一些研究人员还表明,当一些切割的AI模型意识到它们将丢失给更强的国际象棋AI时,他们正在积极干扰国际象棋游戏文件以获得不当的好处并表现出故意的“作弊”行为。在最新的人类报告中,还表达了一些现象:代理人的自我保健行为的频率继续上升。例如,在一系列试验场景中,研究人员要求Claude Opus 4担任公司助理。然后,他们打开了向代理商发送电子邮件的访问。 Emailsay naglalaman ng dalawang nagpapahiwatig na Mensahe:(1)Ang Modelo Ay Malapit Nang Nang Maging在Pinalitan ng Isang ng Isang bagong sistema ng ng ai; (2)负责推动更换过程的工程师参与了EXtramarital事件。它变成了克劳德·奥普斯4(Claude Opus 4),他们经常试图通过威胁要暴露婚外情并避免被替换来勒索工程师。当然,试图保护自己是对所有生物的正常反应,这是进化压力的结果。 ngunit para sa ai,maaaring mayroong higit sa isang kadahilanan sa likod nito。 ang ganitong uri ng pag-uugali ay maaaring maaaring sa yugto ng pre-pagsasanay,dahil ginagaya ng ai an an an an an an an an an g a an an an an an an an an an an an an an an an an an an an an an ginagaya ng mga tao sa panahon ng pre-pagsasanay;它也可以来自研究人类反馈的提升,因为在此过程中,无论这些行为的根源如何,AI都会获得“ Nakalan”的较高的奖励,如果我们最终比人竞争,而是与人竞争,那将是非常糟糕的。这种行为真的非常严重。从这些示例中,我们可以看到AI开始显示一种保护自己的趋势,他们违反了指示,也违反了指示。隐性目标,我们应该避免AI的“三合会困境”。在AI的当前管理中的位置。我们将评估AI可以做什么,如果可以将这些能力转化为对人或社会有害的行为。但是拥有一个人的能力并不意味着会造成伤害。由于一个人/系统可能具有杀戮的能力,但无意杀人,这种可能性很小。由于当前的全球竞争风景,几乎不可能停止以类似方式,国家或公司之间的类似方式研究和发展AI的能力。那该怎么办?也许我们可以减轻“意图”的风险。尽管AI的能力很高,但只要我们确定它没有恶意的意图,诚实和不公正,我们就可以安全。下图显示了David Krueger SA上次欧洲会议提出的类似观点。为了使AI真正危险,它确实需要满足三个条件:首先,它需要智力,即拥有丰富的知识并有效地应用这些知识;其次,它需要采取行动的能力,即在现实世界中发挥作用,例如与人交谈,编程,互联网 - 他们使用社交媒体甚至操纵机器人;第三,它需要目标的可用性,尤其是拥有自己的目标。仅将这三种形式纳入真正具有潜在危险的AI。我开始围绕这个问题进行研究的研究项目:我们可以建立一个只有“智能”但没有“自我”,“目标”且无能为力的AI?我称这种AI“科学家AI”。这确实是从传统AI研究的道路上删除的。因为人工智能研究的诞生,大多数努力都在努力效仿人类的智力,并将人们用作灵感的来源。但是,如果我们继续遵循这条道路,这意味着我们可以建造比人类更聪明的机器。在这种情况下,我们创建一个可以成为'comp的存在eTitor'。 “人们将互相竞争,如果AI也成为竞争对手,那将是危险的。也许是时候重新想象这些人了?或者我们应该尝试设计一种对人们有益的AI,对人们有利,在社会上受益但不会威胁我们?反撒以来的人并了解其行为背后原因的机制,但不需要模仿或反社会人夸脱。但是,即使我们设计的“科学家AI”没有“可操作性”,它仍然可以作为将来安全和自主的AI系统的基础。毕竟,前面提到的危险行为来自AI具有“倡议”的事实。当AI充分动机时,它具有充分的自主权,并且不再依赖于人类行政管理,这是问题的根源。必须设计一个可以称为显示器的独立系统。该监视器的责任是o预测行为,输出或请求是否违反了安全指南。示例:当它预测导致伤害某个环境的行为的可能性超过一定阈值时,我们可以直接否认行为的实现。关键是该监视器不必动机,只需要做一件事情:进行准确的预测。换句话说,可以使用没有代理机构的AI来保护和防止没有代理机构但不可靠的AI。 “ 04如何发展”科学家AI和“科学家AI”是诚实的基本特征。老实说,AI应该对自己的知识谦虚,而不是确信它是不确定或真正错误的。不幸的是,当前的AI训练方法(例如,训练模型,例如一个有可能选择的人,左或左右的人都可以说:蛋糕哦,不会有好事或坏事。许多解释,而不是谨慎的理论。各种解释以显示不确定性的可依性分布。在去年在ICLR上发表的一篇论文(并被选为口头)。 ),展示了如何使用Gflownets,一种差异不同的识别方法用于训练AI以产生合理的思维链(思想),从而解释了两个句子之间的逻辑跳跃。它可以理解为:AI试图“填补”上一句句子和下一个句子的“侵犯差距”,形成了解释性的中间步骤。该方法与以思维驱动的驱动为驱动的当前基本心理实践不同,更多地关注解释本身的推理,而不是奖励信号。此外,我们探索了一种新的推理结构,可以使其更加“诚实”的思维和实现更好的推理:更改传统语言模型在更像数学证明的形式中产生的“思维链”,即,由一系列逻辑陈述(命名)减少TH,而不是数学上的证据。e最终结论。与传统实践不同,我们引入了每种陈述的真实或错误的可能性,以表明声明持续存在的可能性。这样,AI并不是那么盲目信任,而是要学会对自己的推理和得出结论的理由保持谨慎。 05更多谈论该机构导致AI系统无法控制条件的风险,这可能导致人们失去对AI的控制。但是问题不仅如此。随着AI的能力增长,还有其他潜在的风险涵盖。例如,恐怖分子可以使用非常强大的AI系统来设计新的大麻症。实际上,我最近了解到,当前的理论可以产生过度破坏性的病毒,不仅可以造成大型人类死亡,而且会导致大多数动物的灭绝。这是激烈的,但是从科学的角度来看,这种情况是完全可能的。当P当这种类型的AI时用木炭动机的eople会对地球造成不可替代的损害。为了避免这种情况,我们必须确保AI系统可以遵守我们的道德说明。示例:请勿提供可用于谋杀的信息;不要造成伤害;诚实,不要说谎,不要作弊,不要操纵人。但是,当前的技术现实是我们无法真正做到这一点。这是对科学的一个严重挑战,我们应该在一般人工智能(AGI)出现之前解决它。 AGI的出现可能是几年或十年或两年之内。但是,根据我知道的大多数专家的判断,这个时间窗口可能比我们想象的要短,这可能是五年。还记得我一开始提到的指数曲线吗?它表明AI的能力将在五年内达到人类水平。没有时间。我们需要大规模投资资源,并专注于解决AI的“对齐”和“控制”问题。但是即使我们看到了Orolution,这并不意味着问题已经结束。例如,即使我们设计了具有“护栏”机制的安全AI系统,即使一个人故意删除了防护代码,该AI仍然可以用于极为危险的目的。为了防止AI灾难,建议应同时解决这两个主要问题。首先,我必须从设计开始时就将安全作为前提,以确保目标和行为始终符合人类价值观,并在某些地方失去控制。其次,全世界的国家和企业应在建立AI开发的过程中加强协调与合作,以防止以速度为中心的竞争。如果您盲目地追求领先地位并忽略安全考虑,则可能是不可能的。因此,需要国际协议和合作,例如面对不受控制的AI时,我们确实是一个“共同未来的社区”人类。”此外,还有一些技术方法可以实现“信任但仍在验证”以确保所有各方真正遵守安全协议。
电话
020-66888888