俄罗斯搜索巨头 Yandex 发布了 YaLM 100B ,它是一个利用了 1000 亿个参数、类似 GPT 的神经网络,用于生成和处理文本。目前该模型基于 Apache 2.0 许可托管在
GitHub 上
。
Yandex 花了 65 天的时间在包含 800 个 A100 显卡和 1.7 TB 在线文本、书籍和无数其他资源的池中训练了模型。YaLM 高级开发人员 Mikhail Khrushchev 在 Medium 上发布了一篇
博客,
详细介绍了训练该模型的经验,包含如何加速模型训练、如何处理分歧等技术细节。但该公告似乎非常关注参数数量和训练模型的工程挑战,对该模型的训练(学习率计划等)或性能数据没有任何披露。
有网友推测该 YaLM 100B模型的性能基本上介于 GPT-2 和 GPT-3 之间,而Yandex 之所以要训练这样一个大型预训练语言模型,是因为他们需要一个能够同时理解俄语和英语的模型,而 GPT-2 和 3 都只能理解英语。
另外,训练这样的模型需要的花销也不便宜,800 个 A100 显卡+ 65天训练时间,以 AWS“p4d.24xlarge” 实例(8×40GB A100)为例,其价格为 32.7726 美元/小时,800 个 GPU 则需要 3277.26 美元/小时,训练 65 天为 5,112,525.60 美元,这只是粗略的计算价格,还没有考虑存储和网络成本。
此外,虽然模型已经过训练,如果想要运行它仍需要 200GB 的可用磁盘空间,且应该在具有张量并行性的多个 GPU 上运行。更多技术细节可查看
Medium
(英语)和
Habr
(俄语)的文章。
展开阅读全文
本站新闻禁止未经授权转载,违者依法追究相关法律责任。授权请联系:
oscbianji#oschina.cn
本文标题:
Yandex 开源 YaLM 100B:千亿参数的类 GPT 模型
本文地址:
https://www.oschina.net/news/200614/yandex-open-sources-yalm-100b-gpt-like-model