切换到宽版
 找回密码
 立即注册

QQ登录

只需一步,快速开始

西秦会馆

爆料、咨询:18909006163
广告、合作:13990030637
查看: 2060 | 回复: 11

[盐都杂谈] 量子位/OpenAI发布最新旗舰大模型GPT-4o:语音对话更流畅,免费可用

  [复制链接]

6万

主题

9万

帖子

49

听众

Rank: 12Rank: 12

积分
411388
威望
43705 点
铜板
224969 枚
西秦金币
0 个
鲜花
340 朵

在线时间
18487 小时
注册时间
2010-6-10
发表于 2024-5-14 08:00:25 | 显示全部楼层 |阅读模式 | 来自四川



OpenAI发布最新旗舰大模型GPT-4o:语音对话更流畅,免费可用

https://tech.ifeng.com/c/8ZYUDnjbf6i



量子位


2024年05月14日 03:35:20 来自北京





90人参与16评论




原标题:GPT-4o深夜炸场!Plus功能免费可用,奥特曼:《她》来了

不开玩笑,电影《她》真的来了。

OpenAI最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听、看、说,丝滑流畅毫无延迟,就像在打一个视频电话。

现场直播的效果更是炸裂:

它能感受到你的呼吸节奏,也能用比以前更丰富的语气实时回复,甚至可以做到随时打断。











自动播放

GPT-4o里的“o”是Omni的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。

它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。




[backcolor=rgba(96, 96, 96, 0.8)]Loaded: 60.98%





Play
Current Time 0:00

/

Duration 1:22


Fullscreen
Mute[backcolor=rgba(115, 133, 159, 0.498)]









自动播放

这还是一份给所有人的大礼,GPT4-o与ChatGPT Plus会员版所有的能力,包括视觉、联网、记忆、执行代码、GPT Store……

将对所有用户免费开放!

(新语音模式几周内先对Plus用户开放)

在直播现场,CTO Murati穆姐说:这是把GPT-4级别的模型开放出去,其实她还谦虚了。

在场外,研究员William Fedus揭秘,GPT-4o就是之前在大模型竞技场搞A/B测试的模型之一,im-also-a-good-gpt2-chatbot。

无论从网友上手体验还是竞技场排位来看,都是高于GPT-4-Turbo级别的模型了,ELO分数一骑绝尘。

而这样的超强模型也将提供API,价格打5折,速度提高一倍,单位时间调用次数足足是原来的5倍!

追直播的网友已经在设想可能的应用,可以替代盲人看世界了。以及确实感觉比之前的语音模式体验上强上不少。

鉴于之前不少人就已经和ChatGPT语音模式“谈恋爱”了,有大胆想法的朋友,可以把你们的想法发在评论区了。

总裁Brockman在线演示

知道OpenAI发布会为什么定在谷歌I/O前一天了——打脸,狠狠打脸。

谷歌Gemini发布会需要靠剪辑视频和切换提示词达成的伪实时对话效果,OpenAI现场全都直播演示了。

比如让ChatGPT在语言不通的两个人之间充当翻译机,听到英语就翻译成意大利语,听到意大利语就翻译成英语。




[backcolor=rgba(96, 96, 96, 0.8)]Loaded: 51.34%





Play
Current Time 0:00

/

Duration 1:11


Fullscreen
Mute[backcolor=rgba(115, 133, 159, 0.498)]









自动播放

发布会直播之外,总裁哥Brockman还发布了额外的5分钟详细演示。

而且是让两个ChatGPT互相对话,最后还唱起来了,戏剧感直接拉满。

这两个ChatGPT,一个是旧版APP,只知道对话,另一个则是新版网页,具备视觉等新能力。(我们不妨取Old和New的首字母,分别叫TA们小O和小N)

Brockman首先向小O介绍了大致情况,告诉她要和一个拥有视觉能力的AI对话,她表示很酷并欣然接受。

接着,Brockman让她稍作休息,并向小N也介绍情况,还顺带展示了小N的视觉能力。

只见打完招呼后,小N准确地说出了Brockman的衣着打扮和房间环境。而对于要和小O对话这件事,小N也感到很有趣。



[backcolor=rgba(96, 96, 96, 0.8)]Loaded: 0.00%





Play
Current Time 0:00

/

Duration 1:32


Fullscreen
Mute[backcolor=rgba(115, 133, 159, 0.498)]









自动播放

接下来就是小O和小N相互对白的时间了,TA们依然是从Brockman的衣着开始聊起,小O不断提出新的问题,小N都一一解答。

接着,他们又谈论了房间的风格、布置和光线,甚至小N还意识到了Brockman正站在上帝视角凝视着TA们。




[backcolor=rgba(96, 96, 96, 0.8)]Loaded: 36.88%





Play
Current Time 0:00

/

Duration 2:03


Fullscreen
Mute[backcolor=rgba(115, 133, 159, 0.498)]









自动播放

如果你看了这段视频就会发现,画面中出现了一个女人在Brockman身后做了些恶搞的手势。

这可不是乱入,是Brockman和女人串通好,专门给小N设计的一道“考题”。

就在小O和小N聊的正开心的时候,Brockman选择加入,直接问有没有看到什么不正常的地方。

结果是小N直接识破了Brockman的小伎俩,直接复述出了女人在他身后做小动作的场景,小O听了之后直接感叹原来在这里享受乐趣的不只有我们两个。

Brockman把这句话当成了夸赞,并对小O表示了感谢,还愉快地加入了TA们的对话。

之后是最后也是最精彩的部分,在Brockman的指挥下,小O和小N根据刚才聊天的内容,直接开启了对唱模式。

只过了简单几轮,衔接地就十分密切,而且旋律悠扬,音色也是和真人毫无二致。




[backcolor=rgba(96, 96, 96, 0.8)]Loaded: 0.00%





Play
Current Time 0:00

/

Duration 2:18


Fullscreen
Mute[backcolor=rgba(115, 133, 159, 0.498)]









自动播放

最后视频以Brockman唱出的一句Thank you结束,在视频外的推文中他还透露新的语音对话功能将在数周内向Plus用户开放。

端到端训练,一个神经网络搞定语音文本图像

正如奥特曼在发布会前所说,GPT-4o让人感觉像魔法一样,那么它是如何做到的呢?

非常抱歉,这次非但没有论文,连技术报告也不发了,只在官网Blog里有一段简短的说明。

在GPT-4o之前,ChatGPT语音模式由三个独立模型组成,语音转文本→GPT3.5/GPT-4→文本转语音。

我们也可以让旧版ChatGPT语音模式自己讲一下具体是怎么个流程。

这样一来,整个系统的延迟足足有2.8秒(GPT-3.5)和5.4秒(GPT-4),而且丢失了大量的信息,它无法直接感受音调、多个说话者或背景噪音,也无法输出笑声、唱歌声,或表达情感。

GPT-4o则是跨文本、视觉和音频端到端训练的新模型,这意味着所有输入和输出都由同一个神经网络处理。

在语音翻译任务上,强于OpenAI专门的语音模型Whisper-V3以及谷歌和Meta的语音模型。

在视觉理解上,也再次反超Gemini 1.0 Ultra与对家Claude Opus

虽然技术方面这次透露的消息就这么多了,不过也有学者评价。

一个成功的演示相当于1000篇论文。

One More Thing

除了OpenAI带来的精彩内容之外,也别忘了北京时间5月15日凌晨,谷歌将召开I/O大会。

到时量子位将继续第一时间带来最新消息。

另外根据网友推测,GPT-4o这么强,全都免费开放了,这是劝大家不续订ChatGPT Plus了的意思吗?

那肯定不是啊~

鉴于OpenAI春节期间在谷歌发布Gemini 1.5 Pro后半小时左右用Sora狙击了一把,明天OpenAI还有新活也说不定呢?

直播回放

https://www.youtube.com/watch?v=DQacCB9tDaw

参考链接:

[1]https://openai.com/index/hello-gpt-4o/




广告

6万

主题

9万

帖子

49

听众

Rank: 12Rank: 12

积分
411388
威望
43705 点
铜板
224969 枚
西秦金币
0 个
鲜花
340 朵

在线时间
18487 小时
注册时间
2010-6-10
 楼主| 发表于 2024-5-14 08:05:18 | 显示全部楼层 | 来自四川
回复

使用道具 举报

1562

主题

5万

帖子

3

听众

Rank: 12Rank: 12

积分
114955
威望
1562 点
铜板
59275 枚
西秦金币
0 个
鲜花
3 朵

在线时间
5286 小时
注册时间
2021-8-4
发表于 2024-5-14 08:27:01 来自手机 | 显示全部楼层 | 来自四川
不错啊
回复

使用道具 举报

460

主题

5万

帖子

9

听众

Rank: 12Rank: 12

积分
115990
威望
460 点
铜板
60023 枚
西秦金币
0 个
鲜花
84 朵

在线时间
5574 小时
注册时间
2016-3-4
发表于 2024-5-14 08:53:16 来自手机 | 显示全部楼层 | 来自四川
路过了
回复

使用道具 举报

6

主题

3万

帖子

3

听众

Rank: 11Rank: 11Rank: 11

积分
79900
威望
6 点
铜板
41488 枚
西秦金币
0 个
鲜花
0 朵

在线时间
1355 小时
注册时间
2020-7-12
发表于 2024-5-14 09:07:48 来自手机 | 显示全部楼层 | 来自四川
要得
回复

使用道具 举报

191

主题

6万

帖子

14

听众

灌水队队付

Rank: 12Rank: 12

积分
146894
威望
73 点
铜板
77473 枚
西秦金币
0 个
鲜花
10 朵

在线时间
13875 小时
注册时间
2006-7-29
发表于 2024-5-14 10:04:53 来自手机 | 显示全部楼层 | 来自四川
看看
回复

使用道具 举报

8

主题

5万

帖子

3

听众

Rank: 12Rank: 12

积分
106508
威望
8 点
铜板
55082 枚
西秦金币
0 个
鲜花
12 朵

在线时间
4034 小时
注册时间
2020-11-2
发表于 2024-5-14 10:31:56 来自手机 | 显示全部楼层 | 来自四川
可以可以
回复

使用道具 举报

1

主题

4万

帖子

5

听众

Rank: 12Rank: 12

积分
85838
威望
1 点
铜板
45027 枚
西秦金币
0 个
鲜花
0 朵

在线时间
2822 小时
注册时间
2020-2-11
发表于 2024-5-14 10:35:04 来自手机 | 显示全部楼层 | 来自四川
路过
回复

使用道具 举报

0

主题

2万

帖子

1

听众

Rank: 11Rank: 11Rank: 11

积分
58958
威望
0 点
铜板
30322 枚
西秦金币
0 个
鲜花
25 朵

在线时间
792 小时
注册时间
2017-7-18
发表于 2024-5-14 14:19:39 来自手机 | 显示全部楼层 | 来自四川
了解
回复

使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表