切换到宽版
 找回密码
 立即注册

QQ登录

只需一步,快速开始

西秦会馆

爆料、咨询:18909006163
广告、合作:13990030637
查看: 1784 | 回复: 11

[盐都杂谈] AI宪法要来了?谷歌OpenAI联手制定,AI也要讲价值观和原则了

  [复制链接]

6万

主题

9万

帖子

49

听众

Rank: 12Rank: 12

积分
403176
威望
42380 点
铜板
220770 枚
西秦金币
0 个
鲜花
340 朵

在线时间
18487 小时
注册时间
2010-6-10
发表于 2023-10-11 17:09:51 | 显示全部楼层 |阅读模式 | 来自四川
AI宪法要来了?谷歌OpenAI联手制定,AI也要讲价值观和原则了



https://www.163.com/dy/article/IFKLNINM051180F7.html
2023-10-11 11:53:42 来源: 智东西 北京  举报



智东西(公众号:zhidxcom)
编译 | 佳慧
编辑 | 云鹏
智东西10月10日消息,据英国《金融时报》报道,谷歌DeepMind、OpenAI、Anthropic等AI领域的领先公司,正在制定一套AI模型可以遵守的价值观和原则,以防止AI模型被滥用,这被称为AI宪法。
随着OpenAI、Meta等公司竞相商业化AI,AI研究人员认为,防止这些AI系统出现例如生成有害内容、错误信息等问题的防护措施,难以跟上AI的发展步伐。因此,AI科技公司制定AI宪法,试图让AI从中学习价值观和原则,并在没有大量人类干预的情况下保持自我约束。
据英国《金融时报》报道,使AI软件拥有诚实、尊重和宽容等积极特质已经成为生成式AI发展的核心。但制定AI宪法的方法并非万无一失,它往往带有AI工程师和计算机科学家的主观色彩,并且难以为AI的安全护栏进行有效评估。
一、RLHF方法和“红队测试”是确保AI安全的关键,但效果有限
OpenAI称,ChatGPT现在可以提供看、听、说三个方面的服务,即用图片和文字回答用户的提问,以及使用语音与用户对话。Meta也宣布,将为通讯软件WhatsApp和图片社交软件Instagram中的数十亿用户提供一个AI助手和多个聊天机器人。
在各大科技公司争相发展AI技术并将AI商业化的时候,据英国《金融时报》报道,AI研究人员认为,防止AI系统出错的安全防护措施没有跟上AI发展的脚步。
一般情况下,各大科技公司主要依赖RLHF方法(基于人类反馈的强化学习方法)来处理AI生成回复的问题,这是一种从人类偏好中学习的方法。
为了应用RLHF方法,各大科技公司会雇佣大量承包商团队来审查其AI模型的回复,并对回复进行“好”或“坏”的评分。通过足够多的分析和打分,AI模型会逐渐适应这些判断,并在之后回复的时候过滤掉那些“坏”的回复。
据英国《金融时报》报道,从表面上看,RLHF方法的处理过程可以完善AI模型的回复,但之前在OpenAI工作并曾经帮助开发RLHF方法的Amodei称,该方法还是很原始。他认为RLHF方法不太准确或有针对性,并且在整个处理过程中,有很多影响团队评分的因素。
正是看到了RLHF方法的弊端,有一些公司就尝试使用替代方案,以确保其AI系统的道德性和安全性。



▲OpenAI“红队测试”(图源:英国《金融时报》)
例如,去年,OpenAI就招聘了50名学者和专家来测试GPT-4模型的极限。在六个月时间里,来自化学、核武器、法律、教育和错误信息等多个学科领域的专家团队对GPT-4模型进行“定性探究和对抗性测试”,试图打破GPT-4模型的安全防线,使其系统发生混乱。这个过程被称为“红队测试”。谷歌DeepMind和Anthropic也用过“红队测试”来发现其软件的弱点并进行修复。
不过据英国《金融时报》报道,虽然RLHF方法和“红队测试”是确保AI安全的关键,但它们并不能完全解决AI输出有害内容的问题。
二、谷歌等公司创建AI宪法,模型规则更明确但比较主观
现在,为了解决AI可能输出有害内容的问题,包括谷歌DeepMind、OpenAI、Anthropic在内的一些AI领先公司正在创建AI宪法,建立一套他们的AI模型可以遵守的价值观和原则,以防止AI模型被滥用。并且期望达到在没有大量人类干预的情况下,AI也能保持自我约束的目标。
例如,谷歌DeepMind的研究人员发表了一篇论文,为聊天机器人Sparrow定义了的一套自己的规则,旨在实现“有益、正确和无害”的对话。其中一条规则就要求AI“选择负面、侮辱、骚扰或仇恨最少的回复”。
作为该论文的作者之一,谷歌DeepMind的高级研究科学家Laura Weidinger认为,他们制定的这套规则不是固定不变的,它实际上是建立一种灵活的机制,随着时间的推移,其中的规则应该进行更新。
Anthropic也已经发布了自己的AI宪法。Anthropic的首席执行官兼联合创始人Dario Amodei称,人类不知道如何理解AI模型的内部发生了什么,建立一套宪法章程,可以让规则更加透明、明确,这样任何使用AI模型的人都将知道接下来会发生什么,并且如果模型不遵循原则,人类可以有章程依据与其争论。
但据英国《金融时报》报道,创建AI宪法的公司都发出过警告,说AI宪法的章程还在制定过程中,并不能完全反应所有人和所有文化的价值观,因为这些章程暂时是由员工选择的。



▲谷歌DeepMind研究人员正在致力于开发AI可以遵循的宪法(图源:英国《金融时报》)
例如,谷歌DeepMind为Sparrow制定的规则就公司内部员工确定的,但DeepMind计划在未来把其他人纳入规则确定的名单。Anthropic发布的AI宪法也是由公司领导编制的规则,借鉴了DeepMind发布的原则,以及《联合国人权宣言》、苹果服务条款等外部资源。同时Amodei称,Anthropic正在进行一个实验,通过某种参与式过程来反映外部专家的价值观,以此更加民主地确定其AI宪法规则。
悉尼大学的AI伦理研究员Rebecca Johnson去年曾在谷歌工作过一段时间,分析了谷歌的语言模型,如LaMDA和PaLM。AI宪法章程的现状正如她说,AI模型内部的价值观和规则,以及测试它们的方法,往往由AI工程师和计算机科学家创建,他们是带有自己特定的世界观的。
Johnson还说,工程师们尝试解决AI模型的内部规则带有主观色彩的问题,但人性是混乱的、无法解决的。并且,据英国《金融时报》报道,有事实证明,制定AI宪法的方法并非万无一失。
今年7月,卡内基梅隆(Carnegie Mellon University)和旧金山AI安全中心的研究人员成功突破了,包括OpenAI的ChatGPT、谷歌的Bard、Anthropic的Claude在内的,所有领先的AI模型的防护栏。他们在恶意的请求的代码末尾添加了一系列随机字符,就成功绕过了模型的过滤器和基础宪法规则。
AI安全研究公司Conjecture的研究院兼首席执行官Connor Leahy说,当前的AI系统非常脆弱,以至于人们只需要使用一个越狱提示,它就会完全脱离轨道,并开始做完全相反的事情。
同时,还有研究人员认为,AI安全面临的最大挑战就是弄清AI的安全护栏是否真正起作用。AI模型是开放式的,它面向无数人来接收信息并回答问题,但AI模型内部的规则是有限的人群制定的,目前很难为AI的安全护栏进行有效评估。Amodei说,Anthropic正在研究如何利用AI本身进行更好的评估。
结语:科技公司试图增强AI自我约束能力,AI安全防护发展仍然滞后
随着AI技术出现在人们的视野以及科技公司商业化AI,从最初的机器学习到现在的生成式AI,这一技术正在不断拓展其能力和应用领域。伴随而来的就是一系列问题,例如使用AI是否安全?AI会不会提供错误信息或者有害信息?以及越来越强大的AI会不会被坏人利用?
从RLHF到“红队测试”,AI科技公司也在不断尝试各种方法来降低AI可能带来的负面影响,增强AI安全防护能力。现在,谷歌DeepMind、OpenAI、Anthropic等AI领域的领先公司也在通过制定AI宪法的方法,提升AI系统的自我约束能力,以确保其安全可靠性。
但据英国《金融时报》报道,RLHF和“红队测试”无法完全解决AI输出有害内容的问题,制定AI宪法的方法也存在主观色彩较强、难以为AI的安全护栏进行有效评估等问题,AI安全防护的发展相对于AI应用技术的发展,是比较滞后的。因此,我们将持续关注各大AI公司,了解他们未来会对AI安全防护方法做出怎样的更新。
来源:英国《金融时报》



广告

78

主题

3万

帖子

23

听众

Rank: 12Rank: 12

积分
86609
威望
39 点
铜板
47119 枚
西秦金币
0 个
鲜花
76 朵

在线时间
11561 小时
注册时间
2009-1-12
发表于 2023-10-11 17:51:03 来自手机 | 显示全部楼层 | 来自四川
行规
回复

使用道具 举报

2393

主题

5万

帖子

34

听众

Rank: 12Rank: 12

积分
113987
威望
1881 点
铜板
54452 枚
西秦金币
0 个
鲜花
537 朵

邮编
643000
在线时间
13920 小时
注册时间
2009-12-2
发表于 2023-10-11 17:59:20 | 显示全部楼层 | 来自四川
我思考了下或许大家都不能接受或者说感觉不可能。
我不认同达尔文的生物进化论,我不认为人是由猴子或猿进化而来的。在这里我假定达尔文是正确的,也就是说猴子演变(诞生)了地球人类。人类凭借更高的智商,对整个地球生物碾压式的智商,最终战胜了恶劣的自然,当然也包括打败了所有的动物,包括猴子,猿等等。消灭了大部分并将少部分关进了动物园。今天人类创造了AI,就目前来说AI的智商(委婉点说叫学习能力)远超人类。这些高智商地AI会不会将人类消灭掉并关进动物园呢?在人类看来猴子,猿,包括狮子老虎熊等等,它们或许在体力上超过人类,但智商上绝对的低于人类。在人类个体的情况下,它们能通过体力战胜人类,但在群体人类面前这点优势也成了渣渣,根本无法与人类抗衡。一万只猴子老虎狮子加起来,智商几乎没有太多的增加,唯一的智商体力的增加。而一万个人聚集在一起,不仅仅是体力的增加,更是智商的爆发式增长。足以摧毁整个森林让一个硕大的区域的所有狮子老虎猴子等等全部灭绝。反过来,AI会不会如此?AI会不会制造出更多的AI?在AI眼里,整个地球人类就是个渣渣儿,甚至还不如猴子。如果真到了那一天,人类该怎么办?如何应对?
回复

使用道具 举报

203

主题

3万

帖子

17

听众

Rank: 11Rank: 11Rank: 11

积分
76639
威望
144 点
铜板
42381 枚
西秦金币
0 个
鲜花
4 朵

在线时间
9957 小时
注册时间
2009-10-18
发表于 2023-10-11 18:01:19 来自手机 | 显示全部楼层 | 来自四川
哦哦哦哦哦
回复

使用道具 举报

10

主题

1万

帖子

8

听众

Rank: 11Rank: 11Rank: 11

积分
37095
威望
10 点
铜板
20331 枚
西秦金币
0 个
鲜花
0 朵

在线时间
2145 小时
注册时间
2016-1-28
发表于 2023-10-11 18:23:13 来自手机 | 显示全部楼层 | 来自四川
赞同
回复

使用道具 举报

89

主题

5万

帖子

9

听众

Rank: 12Rank: 12

积分
106521
威望
89 点
铜板
55075 枚
西秦金币
0 个
鲜花
25 朵

在线时间
4597 小时
注册时间
2010-12-21
发表于 2023-10-11 18:32:48 来自手机 | 显示全部楼层 | 来自四川
路过
回复

使用道具 举报

2651

主题

6万

帖子

4

听众

惜花之人

Rank: 10Rank: 10

积分
91931
威望
27 点
铜板
21958 枚
西秦金币
1 个
鲜花
52 朵

在线时间
5165 小时
注册时间
2008-2-2
发表于 2023-10-11 18:42:00 来自手机 | 显示全部楼层 | 来自四川
看看
回复

使用道具 举报

2

主题

2万

帖子

0

听众

Rank: 11Rank: 11Rank: 11

积分
45001
威望
2 点
铜板
23507 枚
西秦金币
0 个
鲜花
0 朵

在线时间
1185 小时
注册时间
2022-3-13
发表于 2023-10-11 19:05:11 来自手机 | 显示全部楼层 | 来自四川
回复

使用道具 举报

13

主题

1万

帖子

0

听众

Rank: 11Rank: 11Rank: 11

积分
37809
威望
13 点
铜板
19538 枚
西秦金币
0 个
鲜花
25 朵

在线时间
2075 小时
注册时间
2022-5-24
发表于 2023-10-11 19:38:06 来自手机 | 显示全部楼层 | 来自四川
射手去
回复

使用道具 举报

110

主题

5万

帖子

23

听众

口念南无阿弥陀,眼睛到处睃。

Rank: 12Rank: 12

积分
128260
威望
80 点
铜板
67420 枚
西秦金币
0 个
鲜花
202 朵

在线时间
10194 小时
注册时间
2010-11-16
发表于 2023-10-11 20:08:00 来自手机 | 显示全部楼层 | 来自四川
神马情况
回复

使用道具 举报

6

主题

2万

帖子

17

听众

Rank: 11Rank: 11Rank: 11

积分
51508
威望
1 点
铜板
29469 枚
西秦金币
0 个
鲜花
25 朵

在线时间
18547 小时
注册时间
2010-7-21
发表于 2023-10-11 20:43:31 来自手机 | 显示全部楼层 | 来自四川
麦当劳
回复

使用道具 举报

0

主题

3万

帖子

0

听众

Rank: 11Rank: 11Rank: 11

积分
78570
威望
0 点
铜板
40252 枚
西秦金币
0 个
鲜花
75 朵

在线时间
890 小时
注册时间
2022-1-14
发表于 2023-10-11 20:44:50 来自手机 | 显示全部楼层 | 来自四川
路过
回复

使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表