添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
深情的麻辣香锅  ·  vuetify v-data-table ...·  11 月前    · 
侠义非凡的炒饭  ·  user interface - Is ...·  1 年前    · 
转载”新智元“”
今天,万众期待的OpenAI第一届开发者大会终于来了!
OpenAI的CEO Altman在分享了GPT-4的数十项新增功能和改进,并降低了平台许多服务的定价:
新的GPT-4 Turbo模型,功能更强大、更便宜并支持128K上下文窗口。
最为关键的是,发布了GPTs功能,能让每个用户自己制作自己「定制化的ChatGPT」,还能通过即将发布的「GPT Store」来让自己定制的GPT为自己挣钱!
而且,OpenAI还发布了新的「助手API」,使开发人员能够更轻松地构建自己的辅助AI应用,并可以调用模型和工具。
平台还继续更新了新的多模态功能,包括视觉、图像(DALL·E 3)和文本转语音。

GPT-4 Turbo

一上来,Altman先秀了一下GPT过去获得的成绩,包括高达1亿的周活跃用户,以及吸引了200万开发者根据API进行开发。
紧接着Altman推出了GPT-4的升级版——GPT-4 Turbo,新的GPT-4 Turbo 模型功能更强大、更便宜并支持高达128K的上下文窗口。
上下文窗口对比前代提升了16倍,而128K相当于整整300页书!
新的API赋予了开发者更多的自由度,包括引入了JSON:
通过函数调用,开发者可以向模型描述应用或外部API的函数,并让模型智能地选择输出包含参数的JSON对象来调用这些函数。
包括能够在一条消息中调用多个函数:用户可以发送一条消息请求多个操作,例如「打开车窗并关闭空调」,这在以前需要与模型进行多次往返。
GPT-4 Turbo提高了函数调用的准确性,而且在需要仔细遵循指令的任务上比以前的模型表现更好。
新的模型自然也包括了更新的训练数据,GPT-4 Turbo的知识库更新到了今年4月份,相比于前代提升了一年半,不会再像以前的chatGPT一样,对2022年非常敏感并拒绝回答。
接下来展示的是GPT-4 Turbo在多模态方面的新能力。
GPT-4 Turbo可以接受图像作为聊天完成API中的输入,从而实现生成字幕、详细分析真实世界图像和阅读带有数字的文档等用例。
例如,BeMyEyes使用这项技术来帮助盲人或视力低下的人完成日常任务,例如识别产品或浏览商店。
开发人员可以通过在API中使用gpt-4-vision-preview来访问此功能。OpenAI计划为主要的GPT-4 Turbo模型推出视觉支持,作为其稳定版本的一部分。
而定价取决于输入图像大小。例如,将1080×1080像素的图像传递给GPT-4 Turbo的成本为0.00765美元。
开发人员可以集成DALL·E 3,通过Images API将DALL·E 3指定为模型,直接将其导入到应用和产品中。
Snap、可口可乐和Shutterstock等公司都使用了DALL·E 3以编程方式为其客户和活动生成图像和设计。
与之前版本的DALL·E相比,新的API包含内置审核功能,可帮助开发人员保护其应用程序免遭滥用。
OpenAI提供不同的格式和质量选项,每张生成的图像起价为0.04美元。
另外,开发人员可以通过文本转语音API从文本生成人类质量的语音。
Altman也在现场展示了一段API生成的非常自然且优美的声音。
新的文本转语音API提供六种预设声音可供选择,同时推出了针对实时用例,以及针对质量进行了优化的版本。
起价为每1000个字符0.015美元。
GPT-3.5 Turbo输入比之前的16K型号便宜3倍,为0.001美元,输出便宜2倍,为0.002美元。
而微调后的GPT-3.5 Turbo 4K模型输入便宜4倍,为0.003美元,输出便宜2.7倍,为0.006美元。微调还支持16K上下文,价格与4K版本相同。
——大大降低了开发者的成本,以至于Altman在现场表示「团队为此付出了很大的努力」。
除了GPT-4 Turbo,OpenAI还发布了新版本的GPT-3.5 Turbo,默认支持 16K上下文窗口。
新的GPT-3.5 Turbo支持改进的指令跟踪、JSON模式和并行函数调用。开发人员可以通过在API中调用gpt-3.5-turbo-1106来访问此新模型。
另外,稍稍令人惊讶的是,发布会现场还邀请了微软的CEO纳德拉,现场表现出其乐融融的合作关系。
纳德拉表示将继续增进基础设施方面的支持,通过GitHub Copilot等产品赋能开发者,并高度重视安全性问题。

GPTs

发布会之所以叫「OpenAI开发者大会」,最核心的原因就是他们发布的GPTs。
通俗来说,GPTs就是OpenAI自己做了一个专门给ChatGPT套壳的工具,让所有人都能用这个套壳工具,「开发」自己专属的「套壳ChatGPT」。
然后月底,OpenAI就会上线自己的「APP Store」——「GPT Store」,给所有「套壳GPTs」提供一个展示并且将能力变现的平台。
当OpenAI自己给ChatGPT套壳,就没有那些套壳GPT什么事情了。
按照OpenAI自己在发布会上的演示,GPTs有两个官方的「钦定」发展方向:
1. 让用户通过GPTs创建一个背后由GPT-4加持的智能体生态。
2. 让即使「完全没有代码能力」的用户,也可以做出「定制版的GPT」。
我们具体来看看OpenAI是如何展示这两个产品方向的。

OpenAI Agent

大概在4个月前,OpenAI的元老成员,Andrej Karpathy曾经做过一个小范围的线下演讲,引起了不小的轰动。
他鼓励更多的开发者和AI研究人员去做「智能体」相关的事情,认为AI智能体在未来会有很大的机会。
4个月后,OpenAI的工作人员走上第一届OpenAI开发者大会,介绍了ChatGPT在智能体方向上的应用实例。
她首先演示了,通过GPTs,自己如何把自己手机上的日程表和自动化平台Zapier链接的起来。
然后这个工作人员的GPT,此时就成为了一个简易的智能体,首先识别出了日程中可能出现冲突的地方。
接着,工作人员决定现在要和Sam Altman请个假,去做日程上安排的事情了。她就和自己的GPT说,帮我给Sam说一下我得走了。
GPT就自动地帮她通过手机给Sam发了条信息说,她必须要出门一趟。Sam瞬间就收到了这条信息。
这是第一次,OpenAI官方发布了一个自己的智能体解决方案!
可能多年之后,当人们的生活,已经在AI和智能体的加持之下,发生了翻天覆地的变化。
这个发布会上的场景会像我们现在不断翻看乔帮主发布iPhone的视频片段一样,反复被人提及吧。
根据OpenAI官方的说法,就像之前的插件功能一样,用户可以将自己的GPT集成到外部数据或与现实世界完成交互。
例如,可以把GPT集成到自己的旅行列表数据库、连接自己的电子邮件收件箱或电子商务订单中,从而在自己的生活中发挥更大的作用。

开启OpenAI的「APP Store」时代

而实现这一切功能的基础,就是一个人人可以定制化,几乎没有任何门槛的GPT开发平台。
按照OpenAI的说法,不需要代码能力,每个人都能通过自然语言和GPT交互,用自己的想法和数据定制一个自己专属的GPT。
然后Sam Altman在发布会上就花了3分钟,自己演示了一下制作自己的「创业导师GPT」全流程。
Altman说,当年他还在Y Combinator做CEO的时候,他就特别想拥有一个自己的对外聊天机器人,帮助自己回答不同创业者提出的重复性问题。
首先,他先用自然语言告诉GPT Builder自己想建立一个专门帮助创业者的聊天机器人。
GPT Builder就自动生成了类似于之前「定制化指令」一样的文档,帮助这个GPT定了一个「创业导师」的人设。
然后Sam Altman向GPT上传了一份自己做Y Combinator CEO时期的演讲稿,包括了大量自己和创业者沟通的文字记录。
然后简单修改了一下GPT Builder生成的,建议用户提出的创业问题,再生成了一个产品图标,他的这个「创业导师GPT」就完成了。
在右边的预览屏幕中,「Sam Altman定制版创业导师」就可以开始对外营业,回答创业提出的具体问题了。
Altman自己提了一个问题:「初创公司初期在招人的时候,需要看重哪3个品质?」
「聪明,能干活,价值观契合」
看了看回答之后,他满意地说,「不错,这些回答都是我自己在各种场合反复强调过的话。」
Altman接着说,每个用户创造出来的GPT,可以只对自己可见,完成自己的认为,也可以在OpenAI的平台上对外发布。
而且企业还可以定制化完全本地的GPT来满足自己业务的具体需求!
而对于那些用户喜欢并且愿意付费购买的GPT,OpenAI会和它们的作者共享收益,共建生态。

助手API

而对于专业开发者来说,ChatGPT API功能也迎来了巨大的更新。
OpenAI想要通过这个「助手 API 」(Assistant API)构建一个「API Agent」,来帮专业的开发者们更加高效地使用ChatGPT的API。
这个「助手API」最核心的功能就是,能够调用模型和工具来执行「代码解释器」,「检索」,以及「函数调用」的功能。
这样就能将开发人员从以前繁琐的开发过程中进一步解放出来,把精力专注于构建AI应用的核心部分。
而且 API 能够支持无限长的线程,开发人员从此可以将线程状态管理移交给OpenAI,从而完全不受上下文窗口大小的约束。
发布会现场,OpenAI就演示了如何构建助手的过程,自然语言+简单勾选几个选项,就能完成。
而应用程序马上就能调用这个创建好的API,瞬间得到10个巴黎旅游景点的地图标记。
而让更多开发者惊喜得合不拢嘴的是,所有的API价格都下降了至少1/3,而且不再根据上下文窗口长度区分费率。

专知便捷查看

便捷下载 ,请关注 专知 公众号(点击上方 蓝色 专知关注)

  • 后台回复或发消息“ MM3D ” 就可以获取《 马伟明院士:电磁发射技术的研究现状与挑战 》专知下载链接

点击“ 阅读原文 ”,了解使用 专知 ,查看获取 100000 +AI主题知识资料