GPT-4o是什么？

当地时间5月13日上午10点，OpenAI春季发布会千呼万唤始出来。
这次发布的既不是传了很久的搜索引擎，也不是GPT5，而是GPT-4的迭代版本，GPT-4o。在未来几周内，用户将会陆续自动更新到GPT-4o。
GPT-4o作为新一代旗舰模型，把AI工具的使用门槛降到了更低的程度，不仅比上一代速度快两倍，能实现无延迟实时对话，而且用户不用注册，功能全部免费。
此外，ChatGPT现在有桌面版本了，轻量化的使用体验可以无缝融入你的任何工作流程，再也不用苦哈哈地往网页上搬砖了。据OpenAI的CTO米拉·穆拉蒂（Mira Murati）表示，这也是他们第一次在易用性上做出改进。

发布会刚开始，米拉·穆拉蒂为这次新发布定了调，说OpenAI的目标是进一步减小人们使用AI的障碍，让所有人都能在工作、学习、创造中用上AI工具。
为了这个目的，OpenAI做了三件事：发布更强大的模型GPT-4o，更新用户界面提高使用体验，然后一口气免费开放给用户。穆拉蒂补充道，付费用户享有五倍的使用容量限制。据OpenAI表示，GPT-4o是一个“原生多模态”模型，它的命名来源于“omni”，即包罗万象之意。
比起此前要么是图文模式要么是语音模式的GPT-4，它更擅长打组合拳，可以接受文字、音频、图像的任意组合输入，然后无缝衔接图文音频的多种形式输出。

升级后的GPT-4o回答速度更快了。
据OpenAI表示，GPT-4想要实现和人的对话需要通过三步来实现：先把语音转换为文字，再生成回复文本，最后再转成语音。根据用户选择模型的不同，这个过程的平均延迟高达2.8秒（GPT-3.5）和5.4 秒（GPT-4），对着手机屏幕等回复，跟GPT聊过天的朋友应该都有类似的体验。而且在语音转文字再转语音的过程中，很多信息损失了，GPT无法获得说话人的音调，也无法收取背景音，如果有多个人一起说话更是灾难性的场景。
“我们跨文本、视觉和音频端到端地训练了一个新模型，”OpenAI写道，“这意味着所有输入和输出都由同一神经网络处理。”现在的GPT-4o可以在最短232毫秒内响应对话，平均响应时间320毫秒，和人类的反应速度几乎一样，爱跟ChatGPT聊天的朋友终于可以从微信语音模式切换到日常交流模式了。
GPT-4o还带来了更好用的界面。
再也不用在网页间互相切换了，新的桌面版GPT可以融入任何工作流，随时和用户用图像文字语音进行交流，虽然还没用上，但可以想像这种工作体验有多快乐。

本文来自投稿，不代表本站立场，如若转载，请注明出处：https://typecho.firshare.cn/archives/4024.html

免责声明：文章内容不代表本站立场，本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺，仅供读者参考，文章版权归原作者所有。避免网络欺诈，本站不倡导任何交易行为。如您私自与本站转载自公开互联网中的资讯内容中提及到的个人或平台产生交易，则需自行承担后果。本站在注明来源的前提下推荐原文至此，仅作为优良公众、公开信息分享阅读，不进行商业发布、发表及从事营利性活动。如本文内容影响到您的合法权益（内容、图片等），请及时联系本站，我们会及时删除处理。

GPT-4o是什么？

相关推荐

几个AI文章润色指令

AI工具推荐：Mubert，一分钟内生成背景音乐

AI工具推荐：Runway

算力是什么

作者信息

动态快讯

热门文章

标签TAG

# wordpress

# 激光雷达

# 网站教程

# 加密锁

# Java教程

# css教程

# html教程

# typecho

# apk加固

# 加壳工具

# VirboxLM

# SEO

# VirboxProtector

# 加密狗

您还未登录

登录体验更多功能