添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

当地时间4月12日,微软宣布开源DeepSpeed-Chat,帮助用户轻松训练类ChatGPT等大语言模型,人人都有望拥有专属ChatGPT。

开源地址:https://github.com/microsoft/DeepSpeed

OpenAI之前明确表示拒绝开源GPT-4,也收获了无数“OpenAI并不open”的吐槽。而AI开源社区已推出LLaMa、Vicuna、Alpaca等多个模型,帮助开发者开发类ChatGPT模型。

即便如此,现有解决方案下训练数千亿参数的最先进类ChatGPT模型依旧困难,主要瓶颈便在于缺乏RLHF训练普及——而微软本次开源的DeepSpeed-Chat,便补齐了最后这一块“短板”,帮助在模型训练中加入完整RLHF流程的系统框架。

仅需一个脚本,便可以完成RLHF训练的全部三个阶段,类ChatGPT大语言模型生成唾手可得,堪称“傻瓜式操作”。

图|DeepSpeed-Chat的RLHF 训练流程图示,包含了一些可选择功能(来源:微软) 图|DeepSpeed-Chat的RLHF 训练流程图示,包含了一些可选择功能(来源:微软)

这还不是DeepSpeed-Chat唯一的优势,微软提供了中、英、日三语文档,作出了详细介绍。总体来说,其核心功能与性能包括:

1. 简化类ChatGPT模型训练、强化推理体验。

2. DeepSpeed-RLHF模块复刻了InstructGPT论文中的训练模式。同时,DeepSpeed将训练引擎与推理引擎共同整合到了一个统一混合引擎用于RLHF训练。

3. 高效性和经济性:可将训练速度提升15倍以上,并大幅度降低成本。例如,DeepSpeed-HE若在Azure云上训练一个OPT-30B模型,仅需18小时、花费不到300美元。

4. 卓越的扩展性:可支持训练数千亿参数模型,并在多节点多GPU系统上扩展性突出,只需1.25小时就可完成训练一个130亿参数模型。

5. 实现RLHF训练普及化:仅凭单个GPU,DeepSpeed-HE就能支持训练超过130亿参数的模型。因此无法使用多GPU系统的数据科学家和研究者,不仅能创建轻量级RLHF模型,还能创建大型且功能强大的模型。

此外,与Colossal-AI、HuggingFace等其他RLHF系统相比,DeepSpeed-RLHF在系统性能和模型可扩展性方面表现出色:

就吞吐量而言,DeepSpeed在单个GPU上的RLHF训练中实现10倍以上改进;多GPU设置中,则比Colossal-AI快6-19倍,比HuggingFace DDP快1.4-10.5倍。

就模型可扩展性而言,Colossal-AI可在单个GPU上运行最大1.3B的模型,在单个A100 40G 节点上运行6.7B的模型,而在相同的硬件上,DeepSpeed-HE可分别运行6.5B和50B模型,实现高达7.5倍提升。

因此,凭借超过一个数量级的更高吞吐量,DeepSpeed-RLHF比Colossal-AI、HuggingFace,可在相同时间预算下训练更大的actor模型,或以1/10的成本训练类似大小的模型

  • 小米子公司ZMI GaN充电器67W上新:2C1A接口 三口同时充电
  • 安卓之光稳了!小米13 Ultra首发最完美的徕卡Summicron镜头
  • 网店售“三寸金莲”鞋、缠足专用袜 网友愤怒:文化逆流
  • “夸父一号”卫星观测数据向国内外试开放
  • 理想汽车人事变动!李想直接管销售服务业务,马东辉接替沈亚楠任总裁
  • 00后网红骑摩托车遇车祸身亡 劝不住:网友感慨年轻 有必要全面禁摩?
  • Lululemon Q3营收同比增长28% Q4指引不及预期
  • 好市多 Q1营收不及预期 净销售额同比增8%
  • 羡煞众人!男子年会抽中365天带薪休假奖:可折现
  • SEC建议:美国公司应向投资者披露对加密资产市场的风险敞口
  • 传中国首款民用大飞机C919要用国产发动机 必将打破美国封锁
  • 不可思议?近50%美国人不买新能源车:单看油价瞬间笑了
  • 又一家造车新势力发不出工资了
  • 安卓羡慕哭了!苹果A17将是今年唯一3nm手机处理器
  • 特斯拉下代电机不用稀土 国内专家:屁股决定脑袋 马斯克是迫不得已
  • 最终调查报告:美在乌建了50多个生物实验室
  • 巴西已向中国交付110架商用飞机 这次还想再卖20架
  • OPPO折叠屏新专利公布:可避免多次折叠出现折痕
  • 洗衣机:产品功能更加细分
  • 空调市场今年稳了?
  •