OpenAI春季发布会：GPT-4o登场！与人类反应时间相近？

2024-5-15 11:36| 发布者: 一灯| 查看: 647| 评论: 0

摘要: 北京时间5月14日凌晨，美国人工智能研究公司OpenAI举办春季发布会，发布了新旗舰模型GPT-4o，并展示了一些最新研究。

【聚云快讯】北京时间5月14日凌晨，美国人工智能研究公司OpenAI举办春季发布会，发布了新旗舰模型GPT-4o，并展示了一些最新研究。

只多一个“o”，却多了很多新功能，GPT-4o的“o”代表“omni”，源自拉丁语“omnis”，词意为“全能”。

GPT-4o可以接受文本、音频和图像，三者组合作为输入，并生成文本、音频和图像的。任意组合输出。

在GPT-4o之前，GPT-4无法直接观察音调、说话的人和背景噪音也无法输出笑声、歌唱声和表达情感。

GPT-4o可以在232毫秒内对音频输入做出反应。

与人类在对话中的反应时间相近

比如

GPT-4o能够从用户急促的喘气声中，理解“紧张”的含义，并指导用户进行深呼吸，还可以根据用户要求变换语调。

图像输入方面

OpenAI高管启动摄像头，要求实时完成一个一元方程题，GPT-4o轻松完成了任务，ChatGPT桌面版还能够对代码和气温图表，进行实时解读。

性能方面

GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo（OpenAI于2023年11月发布的多模态模型）级别相当的性能。

同时在多语言、音频和视觉功能方面的表现分数也创下了新高。

什么时候能用到这些新品？

OpenAI介绍将首先向ChatGPT Plus和Team用户推出GPT-4o，并且很快会向企业用户推出，免费用户也有机会体验GPT-4o，但当达到限额时ChatGPT将自动切换到GPT-3.5。

发布会的“B面” 未提及“可持续性”

GPT-4o在响应速度方面几乎解决了延迟问题，日本经济新闻报道称克服这个弱点，让人工智能的使用可能会变得更加广泛。

NHK称“IT公司之间的开发竞争正在加剧”。

BBC认为本次发布会向人们展示了OpenAI的发展方向GPT-4o打算成为下一代AI数字助理。

但也提示GPT-4o变得越复杂，就需要更多的算力，而本次发布会没有提及“可持续性”。

CNBC则在报道中指出

一些业内人士对未经测试的新服务进入市场的速度表示担忧。

学术界和伦理学家对该技术传播偏见的倾向感到苦恼。

业界人士指出尽管GPT-4o在多模态能力上有所提升，但OpenAI并未展示出真正的视觉多模态突破功能，在实时音频交互方面市场上已有产品具备类似功能。

ChatGPT虽处高光 背后也有危机

OpenAI CEO山姆·奥特曼（Sam Altman）曾表示

未来五年OpenAI最大的瓶颈可能会出现在供应链和计算资源方面。

另一方面

OpenAI也一直因版权问题受到质疑。

发布会前不久，美国八家新闻机构提起诉讼称其利用大量版权新闻文章，训练聊天机器人ChatGPT，控告OpenAI侵权。

值得一提的是OpenAI把此次发布会时间安排在谷歌的I/O大会之前（谷歌也将发布AI产品）相当于给谷歌“甩了个王炸”。

大家都在等着看接下来谷歌如何“接招”？

发布会结束后，奥特曼在个人社交平台，发布了一个单词：她（her）

在科幻电影《她》里，AI助理爱上了人类，而今天具备新功能、接入GPT-4o的ChatGPT语音助手产品，似乎真的有望让科幻电影的桥段走入现实。

上一篇：GPT-4o发布：可读懂用户情绪的智能助理如何从科幻走入现实下一篇：腾讯文件助手将于10月停运，微信文件传输助手还能用吗？

相关分类