添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
开朗的山楂  ·  Github ...·  1 年前    · 

原文链接: 10​大顶级开源大模型!

10大开源大模型

大型语言模型(LLMs)无疑是人工智能革命中的核心驱动力,它们建立在Transformer架构的稳固基石之上,并根据缩放定律不断演进。 简而言之,缩放定律揭示了一个重要原则:随着数据规模的扩大、参数数量的增加以及计算能力的提升,模型的能力将迈向新的巅峰。 正是通过预先训练海量的文本数据,LLMs展现出了卓越的对话和任务处理能力,成为了现代人工智能领域的璀璨星辰。

尽管如此,如今备受欢迎的巨型模型如 ChatGPT和Bard ,都建立在专有且闭源的基石之上,这无疑为它们的使用设立了重重障碍,导致技术信息的透明度变得模糊不清。

然而,开源的大型语言模型(LLMs)正逐渐崭露头角,它们不仅显著增强了数据的安全性和隐私保护,更为用户节省了大量成本,减少了对外部依赖的需求。更重要的是,开源LLMs让代码更加透明,使得模型得以个性化定制,推动整个领域的创新与发展,为科技进步注入了新的活力!

在本文,我会详细介绍下,最新的顶级开源LLMs大模型!

1 LLaMA 3

近期,Meta 隆重推出了两款开源模型: Llama 3 8B与Llama 3 70B ,这两款模型可供外部开发者免费使用。Meta 表示,Llama 3 8B和Llama 3 70B在目前同体量模型中,展现出卓越的性能,堪称业界的佼佼者。

从Meta 分享的基准测试结果来看,Llama 3 400B+ 的实力不容小觑,其性能已逼近Claude超大杯以及新版GPT-4 Turbo,虽然还存在一定的差距,但足以证明它在顶尖大模型领域已占有一席之地。

模型下载链接: https://llama.meta.com/llama-downloads/

GitHub项目地址: https://github.com/meta-llama/llama3

2 Phi-3

Phi-3是 微软AI研究院 的新开源语言模型,具备小巧且高效的特性,赢得市场青睐。系列包括Phi-3-Mini、Phi-3-Small和Phi-3-Medium三种规模。Phi-3-Mini虽小,但性能与大型模型相当,适合资源有限环境。Phi-3-Small和Phi-3-Medium在扩展数据集支持下性能更佳。Phi-3系列以小巧设计、卓越性能和灵活扩展能力,为语言模型领域注入新活力,满足不同用户需求。

Phi-3 技术报告《一个能跑在手机上的大模型》: https://arxiv.org/abs/2404.14219

链接: https://huggingface.co/collections/microsoft/

3 通义千问Qwen1.5

近日,国内领先的 通义千问公司 震撼发布了一款千亿级参数模型—— Qwen1.5-110B 。经过详尽的性能测试,Qwen1.5-110B凭借其卓越表现重返SOTA开源模型之巅,甚至超越了强大的Llama 3 70B,成为了当前最顶尖的开源大模型。值得一提的是,Qwen1.5-110B与Qwen1.5系列的其他模型在结构上保持了一致性,均采用了分组查询注意力机制,保证了推理的高效性。此外,该模型还支持高达32K的上下文,同时 兼容多种语言 ,包括英语、中文、法语、西班牙语、德语、俄语、韩语和日语等,满足了全球用户的需求。

model: https://hf-mirror.com/Qwen/Qwen1.5-110B

demo: https://huggingface.co/spaces/Qwen/Qwen1.5-110B-Chat-demo

4 BLOOM

BLOOM是一个经过一年合作开发的 自回归LLM训练模型 ,利用了工业级计算资源和大量文本数据生成文本。其发布是生成式AI民主化的里程碑。拥有1760亿参数的BLOOM,是强大的开源LLMs之一,能以46种语言和13种编程语言生成连贯准确的文本。其特点是透明度高,源代码和训练数据均可访问,方便运行、研究和改进。此外,BLOOM可通过Hugging Face生态系统免费使用。

链接: bigscience.huggingface.co

5 BERT

BERT是早期大型语言模型的代表作,作为Transformer潜力的首批实验之一,BERT在 2018年开源 后迅速在自然语言处理任务中取得先进性能。因其创新和开源性质,BERT成为最受欢迎的LLMs之一,有数千种开源、免费和预训练的模型用于各种用例。但近年来,谷歌对开源大模型的态度有所冷漠。

链接: https://github.com/google-research/bert

6 Falcon 180B

Falcon 40B 在开源LLM社区备受赞誉,成为 Hugging Face榜首 。新推出的Falcon 180B展现出专有与开源LLM间的差距正迅速缩小。阿联酋技术创新研究所透露,Falcon 180B正在接受1800亿参数的训练,计算能力强大,已在多种NLP任务中超越LLaMA 2和GPT-3.5。虽然免费供商业和研究使用,但运行Falcon 180B需要庞大计算资源。

7 XGen-7B

多家公司角逐LLM领域, Salesforce推出XGen-7BLLM 。不同于多数开源LLMs的有限信息大答案,XGen-7B支持更长上下文窗口。其高级版本XGen-7B-8K-base具备8K上下文窗口。尽管使用7B参数训练,但XGen效率出色。尺寸虽小,但表现优异,适用于商业和研究,但需注意,XGen-7B-{4K,8K}-inst版本为教学数据和RLHF训练,且以非商业许可发布。

8 GPT-NeoX 和 GPT-J

GPT-NeoX和GPT-J是 EleutherAI实验室 开发的GPT开源替代品,分别拥有200亿和60亿参数,尽管参数少于其他LLMs,但仍能提供高精度结果。这两款模型经过22个高质量数据集的训练,可广泛应用于不同领域和用例。与GPT-3不同,它们未接受RLHF训练。GPT-NeoX和GPT-J可用于自然语言处理任务,如文本生成、情感分析以及研究和营销活动开发,并可通过NLP Cloud API免费获取。

9 Vicuna13-B

Vicuna-13B是开源对话模型,基于LLaMa 13B微调,训练数据来自ShareGPT的用户共享对话。它广泛应用于客户服务、医疗保健、教育、金融和旅游/酒店等行业。初步评估显示,Vicuna-13B在90%以上的案例中优于其他模型如LLaMa2和Alpaca。

10 Mistral 7B

Mistral 7B v0.2 预训练模型以 Mistral-7B-Instruct-v0.2 为基础,正式加入「Mistral Tiny」系列大家庭。此次更新带来了一系列显著的改进,包括将上下文长度扩展至32K,Rope Theta 参数设定为1e6,并取消了滑动窗口。这些升级不仅提升了模型的处理能力和灵活性,还确保了其在处理复杂任务时的高效性与准确性。

链接: https://mistral.ai/

11 零一万物

Yi系列模型是 01.AI 推出的强大开源语言模型, 以双语能力领先领域 。利用3T多语言语料库训练,具备卓越的语言理解、常识推理和阅读理解等能力。2024年1月数据显示,Yi-34B-Chat在AlpacaEval排名第二,仅次于GPT-4 Turbo,超越其他LLM如GPT-4、Mixtral、Claude。在各种基准测试中,Yi-34B排名第一,超越Falcon-180B、Llama-70B、Claude等开源模型。这使得Yi系列模型成为全球领先的LLM之一,展现出广阔的应用前景。

论文: https://arxiv.org/abs/2403.04652

链接: https://github.com/01-ai/Y

如何选择适合的开源LLM

开源LLM领域正在快速发展,全球开发者携手改进和优化LLM版本,有望缩小性能差距。在选择开源LLM时, 请考虑以下因素 ,以找到最适合您需求的模型:

  • 目标:明确您的目标,注意许可限制,选择适合商业用途的LLM。

  • 需求:评估您是否真的需要LLM来实现想法,避免不必要的支出。

  • 精度:大型LLMs通常更准确。若需要高精度,可考虑LLaMA或Falcon等大型模型。

  • 资金:大型模型资源消耗大,需考虑基础设施和云服务成本。

  • 预训练模型:若有适用的预训练模型,可节省时间和金钱。

IT行业的历史告诉我们,开源是软件领域里的一大潮流,它推动了应用生态的繁荣。但自从GPT3出现后,Open AI却选择了闭源,这使得开源大模型的发展似乎停滞在了GPT3.5的阶段。不过, 业界还是有一些不错的前沿开源大模型,比如Meta的LLaMA3、Mistral 8x7B和零一万物的Yi-34B等。

虽然开源模式在构建生态方面很给力 ,但因为算力和算法等方面的限制,它在大模型领域的发展还充满了不确定性, 甚至有人担心,开源模型会逐渐落后。好在Llama 3的出现,给开源模型带来了一线希望。这场关于开源与闭源的辩论还在继续,咱们就拭目以待,看看开源和闭源将如何共同塑造AI的未来吧!

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。 大家有推荐的公众号可以评论区留言,共同学习,一起进步。

kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍 kaggle 竞赛 策略, 算法 讲解,AI 模型 介绍