添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
开源微调大型语言模型(LLM)合集

开源微调大型语言模型(LLM)合集

您可以在计算机上本地运行的开源微调大型语言模型 (LLM) 的不完整列表

该列表是一项持续进行的工作,我试图按它们所在的基础模型对它们进行分组:

LLaMA (Meta)

Stanford Alpaca: 一种遵循指令的 LLaMA 模型

以下是基于 LLaMA(Meta) 或 Stanford Alpaca 项目的复制品项目列表(我们将一一简单介绍):
Alpaca.cpp | Alpaca-LoRA | AlpacaGPT4-LoRA-7B-OpenLLaMA | Baize | Cabrita | Chinese-LLaMA-Alpaca | Chinese-Vicuna | GPT4-x-Alpaca | gpt4-x-vicuna-13b | GPT4All | GPTQ-for-LLaMA | Koala | llama.cpp | LLaMA-Adapter V2 | Lit-LLaMA | OpenAlpaca | OpenBuddy — Open Multilingual Chatbot for Everyone | Pygmalion-7b | StackLLaMA | StableVicuna | The Bloke alpaca-lora-65B-GGML/StableVicuna-13B-GPTQ/WizardLM-7B-uncensored-GPTQ | Vicuna | Vigogne | WizardLM

Alpaca.cpp

可以在您的设备上本地运行类似 ChatGPT 的快速模型。下面的截屏视频没有加速,在具有 4GB 权重的 M2 Macbook Air 上运行(通过 GitHub 链接查看详情)。

Alpaca-LoRA

该 repo包含使用 low-rank-adaptation(LoRA) 重现 Stanford Alpaca 结果的代码。他们们提供了一个和 text-davinci-003 质量相似的 Instruct 模型 ,可以 在 Raspberry Pi 上 运行(用于研究中),并且代码很容易扩展到 13b , 30b 65b 模型。

AlpacaGPT4-LoRA-7B-OpenLLaMA

Baize

Baize 是一种使用 LoRA 微调的开源聊天模型。它使用让 ChatGPT 与自身聊天生成的 100k 对话。我们还使用 Alpaca 的数据来提高其性能。他们已经发布了 7B 13B 30B 型号。

Cabrita

葡萄牙语微调指令 LLaMA

Chinese-LLaMA-Alpaca

为了推动中国NLP社区大模型的开放研究,本项目开源了中国LLaMA模型和精调指令的Alpaca大模型。这些模型在原有LLaMA的基础上,扩展了中文词汇量,并使用中文数据进行二次预训练,进一步提高了对中文的基本语义理解。同时,中国 Alpaca 模型进一步利用中文指令数据进行微调,显著提升了模型对指令的理解和执行能力。详见技术报告(Cui, Yang, and Yao, 2023)。

Chinese-Vicuna

一种基于中文指令跟随 LLaMA 的模型

GPT4-x-Alpaca

GPT4-x-Alpaca 是一个 LLaMA 13B 模型,使用 GPT4 对话集合 GPTeacher 进行了微调。关于其训练和性能的信息不多。

gpt4-x-vicuna-13b

作为基础模型使用 huggingface.co/eachadea 。在 Teknium 的 GPTeacher 数据集、未发布的 Roleplay v2 数据集、GPT-4-LLM 数据集和 Nous Research Instruct 数据集上进行了微调。大约 180k 条指令,全部来自 GPT-4,全部清除了任何 OpenAI 审查/“作为 AI 语言模型”等。

GPT4All

基于 LLaMa 的约 800k GPT-3.5-Turbo Generations 训练助手式大型语言模型的演示、数据和代码

GPTQ-for-LLaMA

使用 GPTQ对 LLaMA 进行 4 位量化。GPTQ 是 SOTA 的单次权重量化方法。

Koala

Koala 是一种在 LLaMA 之上微调的语言模型。 查看博文! 本文档将描述下载、恢复 Koala 模型权重以及在本地运行 Koala 聊天机器人的过程。

llama.cpp

纯C/C++中 LLaMA 模型的推断

LLaMA-Adapter V2

“LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention” “LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model” 的官方实现。

Lit-LLaMA ️

LLaMA 的独立实现,在 Apache 2.0 许可下完全开源。此实现基于 nanoGPT

OpenAlpaca

这是 OpenAlpaca 项目的 repo,旨在构建和共享基于 OpenLLaMA 的指令跟随模型。我们注意到,在 OpenLLaMA 之后,OpenAlpaca 在 Apache 2.0 许可下获得许可。这个 repo 包含

- 用于微调模型的数据。
- 微调模型的代码。
- 微调模型的权重。
- OpenAlpaca 的使用示例。

OpenBuddy — 为所有人开放的多语言聊天机器人

OpenBuddy 是一个强大的开源多语言聊天机器人模型,面向全球用户,强调会话式 AI 和对英语、中文和其他语言的无缝多语言支持。OpenBuddy 建立在 Facebook 的 LLAMA 模型之上,经过微调以包含扩展的词汇表、额外的常用字符和增强的令牌嵌入。通过利用这些改进和多轮对话数据集,OpenBuddy 提供了一个强大的模型,能够跨多种语言回答问题和执行翻译任务。

Pygmalion-7b

Pygmalion 7B 是基于 Meta 的 LLaMA-7B 的对话模型。这是版本 1。它已经使用 Pygmalion-6B-v8-pt4 的数据子集进行了微调,供熟悉该项目的人使用。

StableVicuna

我们很自豪地推出 StableVicuna ,这是第一个通过强化学习人类反馈 (RHLF) 进行训练的大型开源聊天机器人。StableVicuna 是 Vicuna v0 13b 的进一步指令微调和 RLHF 训练版本,后者是指令微调 LLaMA 13b 模型。对于感兴趣的读者,您可以 在此处找到有关 Vicuna 的 更多信息。

StackLLaMA

LlaMa 模型 通过以下组合在 Stack Exchange 上使用 RLHF训练答案和问题:监督微调 (SFT)、奖励/偏好建模 (RM) 和基于人类反馈的强化学习 (RLHF)

The Bloke alpaca-lora-65B-GGML

使用llama.cpp对 changsung 的 alpaca-lora-65B 进行 CPU 推理的量化 4 位和 2 位 GGML。

The Bloke’s StableVicuna-13B-GPTQ

这个 repo 包含CarterAI 的 StableVicuna 13B 的 4 位 GPTQ 格式量化模型。这是首先将上述存储库中的增量与原始 Llama 13B 权重合并,然后使用 GPTQ-for-LLaMa 量化为 4 位的结果。

The Bloke’s WizardLM-7B-uncensored-GPTQ

这些文件是Eric Hartford 的“未经审查”版本的 WizardLM 的 GPTQ 4 位模型文件。 它是使用GPTQ-for-LLaMa 量化为 4 位的结果。Eric 使用 WizardLM 方法对数据集进行了全新的 7B 培训, 该数据集经过编辑以删除所有“对不起..”类型的 ChatGPT 响应

Vicuna (FastChat)

一个以 90% ChatGPT 质量打动 GPT-4 的开源聊天机器人。

Vigogne

该 repo包含使用 Hugging Face 的PEFT 库提供的 低阶适应 (LoRA) 用法语 复制 斯坦福羊驼的代码。 除了 LoRA 技术,我们还使用 bitsandbytes 提供的 LLM.int8() 将预训练语言模型 (PLM) 量化为 int8。结合这两种技术,我们可以在单个消费类 GPU(例如 RTX 4090)上微调 PLM。

WizardLM

使用 Evol-Instruct 跟随 LLM 的指令。使大型预训练语言模型能够遵循复杂指令


BLOOM (BigScience)

使用分布式 176B 参数 BLOOM BLOOMZ 生成文本,并根据您自己的任务对其进行微调。

以下是 BLOOM 项目的或基于 BLOOM 项目的复制品列表:

BLOOM-LoRA

各种 Instruct-Tuning 数据集的 Low-Rank adaptation。

Petals

使用分布式 176B 参数 BLOOM BLOOMZ 生成文本,并根据您自己的任务对其进行微调。


Cerebras-GPT (Cerebras)

一系列开放的、计算高效的大型语言模型。Cerebras 开源了七个 GPT-3 模型,参数从 1.11 亿到 130 亿。这些模型使用 Chinchilla 公式进行训练,为准确性和计算效率设定了新的基准。


Flamingo (Google/Deepmind)

使用单一视觉语言模型处理多项任务

以下是 Flamingo 项目的或基于 Flamingo 项目的复制品列表:

Flamingo — Pytorch

在 Pytorch 中实现 Flamingo ,最先进的少镜头视觉问答 attention net 。它将包括感知器重采样器(包括学习查询贡献要注意的键/值的方案,以及媒体嵌入)、专门的掩码交叉注意力块,以及交叉注意力末端的 tanh 门控 +相应的前馈块。

OpenFlamingo

欢迎使用我们的 DeepMind Flamingo 模型的开源版本!在此存储库中,我们提供了用于训练和评估 OpenFlamingo 模型的 PyTorch 实现。我们还提供了在新的多模式 C4 数据集(即将推出)上训练的初始 OpenFlamingo 9B 模型。请参阅我们的博客文章了解更多详情。


FLAN (Google)

此 repo 包含用于生成指令调整数据集集合的代码。第一个是原始的 Flan 2021,记录在 Finetuned Language Models are Zero-Shot Learners 中,第二个是扩展版本,称为 Flan Collection,在 The Flan Collection: Designing Data and Methods for Effective Instruction Tuning 中描述,用于生成 Flan-T5 Flan-PaLM

以下是 FLAN 项目的或基于 FLAN 项目的复制品列表:

FastChat-T5

我们很高兴发布 FastChat-T5:我们紧凑且商业友好的聊天机器人!由 Flan-T5 微调,可商用!并且在参数减少 4 倍的情况下优于 Dolly-V2。

Flan-Alpaca

来自人类和机器的指令调整。该存储库包含用于将 Stanford Alpaca 合成指令调优扩展到现有指令调优模型(例如 Flan-T5) 的代码。HuggingFace 上提供了预训练模型和演示

Flan-UL2

Flan-UL2是基于该 T5 架构的编码解码器模型。 UL2 model 它使用与去年早些时候发布的相同配置。使用“Flan”提示调整和数据集收集对其进行了微调


GALACTICA (Meta)

Mitchell et al.(2018) 之后 ,此模型卡提供有关 GALACTICA 模型、训练方式和预期用例的信息。有关如何训练和评估模型的完整详细信息,请参阅 发布文件

以下是 GALACTICA 项目的或基于其的复制品列表:

Galpaca

GALACTICA 30B 在 Alpaca 数据集上进行了微调。


GLM (General Language Model)

GLM 是一种使用自回归填空目标进行预训练的通用语言模型,可以针对各种自然语言理解和生成任务进行微调。

以下是 GLM 项目的或基于该项目的复制品列表:

ChatGLM-6B

ChatGLM-6B是一个基于通用语言模型(GLM)框架的开放式双语语言模型,拥有62亿个参数。借助量化技术,用户可以在消费级显卡上进行本地部署(INT4量化级别仅需6GB GPU显存)。

ChatGLM-6B 使用类似于 ChatGPT 的技术,针对中文 QA 和对话进行了优化。该模型针对约 1T 的中英文语料库进行训练,并辅以监督微调、反馈引导和人类反馈强化学习。该模型仅需约 62 亿个参数,就能生成符合人类偏好的答案。


GPT-J (EleutherAI)

GPT-J是 EleutherAI 开发的开源 人工智能 语言模型 [1] GPT-J在各种零样本下行任务上的表现与 OpenAI GPT-3非常相似,甚至在代码生成任务上的表现优于它。 [2] 最新版本 GPT-J-6B 是一种基于名为 The Pile 的数据集的语言模型。 [3] The Pile 是一个开源的 825 GB 语言建模数据集,分为 22 个较小的数据集。 [4] GPT-J 类似于 ChatGPT 在能力上,虽然它不能作为聊天机器人,只能作为文本预测器。 [5]

以下是 GPT-J 项目的或基于 GPT-J 项目的复制品列表:

Dolly (Databricks)

Databricks 的 Dolly 是一个在 Databricks 机器学习平台 上训练的大型语言模型,它证明了一个已有两年历史的开源模型 ( GPT-J ) 在对包含 50k 记录的重点语料库进行仅 30 分钟的微调时可以( Stanford Alpaca ),表现出令人惊讶的高质量指令遵循行为,而不是它所基于的基础模型的特征。我们认为这一发现很重要,因为它表明创造强大的人工智能技术的能力比以前意识到的要容易得多。

GPT-J-6B instruction-tuned on Alpaca-GPT4

该模型在 GPT-4 代的 Alpaca 提示上进行了微调,使用 LoRA 进行了 30.000 步(批量大小为 128),在四个 V100S 中花费了 7 多个小时。

GPT4All-J

基于GPT-J训练开源助手式大语言模型的demo、数据和代码


GPT-NeoX (EleutherAI)

该存储库记录了 EleutherAI 用于在 GPU 上训练大规模语言模型的库。我们当前的框架基于 NVIDIA 的 Megatron 语言模型,并通过 DeepSpeed 的技术以及一些新颖的优化得到了增强。我们的目标是使这个 repo 成为一个集中且可访问的地方,以收集训练大规模自回归语言模型的技术,并加速对大规模训练的研究。


h2oGPT (h2o.ai)

我们的目标是做世界上最好的开源 GPT!


HuggingGPT (Microsoft)

HuggingGPT 是一个协作系统,由作为控制器的 LLM 和作为协作执行者的众多专家模型组成(来自 HuggingFace Hub)。


MPT-7B (Mosaic ML)

MPT-7B 是 GPT 风格的模型,也是 MosaicML Foundation 系列模型中的第一个。MPT-7B 在 MosaicML 管理的数据集的 1T token上进行训练,是开源的、可商业使用的,并且在评估指标上等同于 LLaMa 7B。MPT 架构包含 LLM 建模的所有最新技术——用于提高效率的 Flash Attention、用于上下文长度外推的 Alibi 以及用于减轻损失峰值的稳定性改进。基本模型和几个变体,包括 64K 上下文长度微调模型 (!!) 都可用。


NeMo — GPT-2B-001 (Nvidia)

GPT-2B-001 是一种基于 transformer 的语言模型。GPT 指的是一类类似于 GPT-2 和 3 的 transformer decoder-only 模型,而 2B 指的是可训练参数总数(20 亿)[1, 2]。这个模型是用 NeMo 在 1.1T tokens上训练的。


OpenAssistant Models

适合所有人的对话式 AI。


OpenLLaMA

在此 repo 中,我们发布了 Meta AI 的LLaMA 大型语言模型的许可开源复制品。在此版本中,我们发布了 7B OpenLLaMA 模型的公开预览版,该模型已使用 2000 亿个 tokens 进行训练。我们提供预训练 OpenLLaMA 模型的 PyTorch 和 Jax 权重,以及评估结果和与原始 LLaMA 模型的比较。请继续关注我们的更新。


PaLM (Google)

PaLM 首次大规模使用 Pathways 系统将训练扩展到 6144 个芯片,这是迄今为止用于训练的最大的基于 TPU 的系统配置。训练在两个 Cloud TPU v4 Pod 之间使用 Pod 级别的 数据并行性 进行扩展,同时在每个 Pod 中使用标准数据和模型并行性。与大多数以前的 LLM 相比,这是规模的显着增加,这些 LLM 要么在单个 TPU v3 Pod(例如, GLaM LaMDA )上进行训练,要么使用流水线并行性跨 GPU 集群( Megatron-Turing NLG )扩展到 2240 个 A100 GPU,或者使用了多个 TPU v3 Pod( Gopher ),最大规模为 4096 个 TPU v3 芯片。

以下是 PaLM 项目或基于 PaLM 项目的复制品列表:

PaLM (Concept of Mind)

引入三个在 C4 上以 8k 上下文长度训练的新开源 PaLM 模型。开源 LLMs 是公平公正地实现人工智能民主化的必要条件。尺寸为 150m、410m 和 1b 的型号可在此处下载和使用。


Palmyra Base 5B (Writer)

Palmyra Base 主要使用英文文本进行预训练。请注意,通过 CommonCrawl 访问的训练语料库中仍然存在少量非英语数据。在模型的预训练过程中使用了因果语言建模 (CLM) 目标。与 GPT-3 类似,Palmyra Base 属于仅包含解码器的同一模型家族。因此,它利用自我监督因果语言建模的目标进行了预训练。Palmyra Base 使用 GPT-3 的提示和一般实验设置,以便根据 GPT-3 进行评估。

以下是 Palmyra Base 项目的复制品列表或基于该项目的复制品:

Camel 5B

隆重推出 Camel-5b,这是一种最先进的指令遵循大型语言模型,旨在提供卓越的性能和多功能性。Camel-5b源自 Palmyra-Base 的基础架构,专为满足对高级自然语言处理和理解能力不断增长的需求而量身定制。


Polyglot (EleutherAI)

多语言均衡能力的大型语言模型。mBERT、BLOOM、XGLM等多种多语言模型已经发布。因此,有人可能会问,“为什么我们需要重新制作多语言模型?”在回答这个问题之前,我们想问,“为什么世界上已经有很多多语言模型了,但全世界的人都用他们的语言制作单语言模型?”我们想指出的是,对当前多语言模型的非英语性能不满意是最重要的原因之一。所以我们想制作非英语语言性能更高的多语言模型。这就是我们需要再次制作多语言模型以及我们将其命名为“Polyglot”的原因。


Pythia (EleutherAI)

跨时间和尺度解释自回归 Transformers

以下是 Pythia 项目的或基于 Pythia 项目的复制品列表:

Dolly 2.0 (Databricks)

Dolly 2.0 是一个 12B 参数语言模型,它基于 EleutherAI pythia 模型系列,并专门根据 Databricks 员工众包的新的、高质量的人工生成指令跟随数据集进行了微调。


RedPajama-INCITE 3B and 7B (Together)

在 RedPajama 基础数据集上训练的第一个模型:一个 30 亿和一个 7B 参数的基础模型,旨在尽可能接近地复制 LLaMA 配方。此外,我们还发布了完全开源的指令优化和聊天模型。


Replit-Code (Replit)

replit-code-v1-3b 是一个专注于代码完成的 2.7B Causal 语言模型。该模型已经在 Stack Dedup v1.2 数据集 的一个子集上进行了训练。训练混合包括20种不同的语言,这里按标记数量的降序

Markdown , Java , JavaScript , Python , TypeScript , PHP , SQL , JSX , reStructuredText , Rust , C , CSS , Go , C++ , HTML , Vue , Ruby , Jupyter Notebook , R , Shell

总的来说,训练数据集包含 175B 个标记,重复了 3 个时期 -- replit-code-v1-3b 总共接受了 525B 个标记(每个参数约 195 个标记)。


The RWKV Language Model

RWKV:具有 Transformer 级 LLM 性能的可并行化 RNN(发音为“RwaKuv”,来自 4 个主要参数:RWKV)


Segment Anything (Meta)

Segment Anything Model (SAM) 根据输入提示(例如点或框)生成高质量的对象掩码,它可用于为图像中的所有对象生成掩码。它已经在 1100 万张图像和 11 亿个掩码的数据集上进行了训练,并且在各种分割任务上具有很强的零样本性能。


StableLM (StabilityAI)

一种新的开源语言模型, StableLM 。该模型的 Alpha 版本有 30 亿和 70 亿参数,后续还有 150 亿到 650 亿参数模型。开发人员可以出于商业或研究目的自由检查、使用和调整我们的 StableLM 基本模型,但要遵守 CC BY-SA-4.0 许可的条款。StableLM 在建立在 The Pile 上的新实验数据集上进行训练,但数据集大了三倍,包含 1.5 万亿个内容标记。我们将在适当的时候发布有关数据集的详细信息。这个数据集的丰富性使 StableLM 在会话和编码任务中表现出惊人的高性能,尽管它的参数量很小,只有 3 到 70 亿个(相比之下,GPT-3 有 1750 亿个参数)


StartCoder (BigCode)

BigCode 是一个开放的科学合作组织,致力于对用于编码应用程序的大型语言模型进行负责任的培训。您可以在主 网站上找到更多信息或在 Twitter 上关注 Big Code。在这个组织中,您可以找到这种合作的成果:StarCoder,一个最先进的代码语言模型,The Stack,最大的可用预训练数据集,具有 perimssive 代码,以及 SantaCoder,一个 1.1B 代码参数模型。


XGLM (Meta)

XGLM 模型是在 Few-shot Learning with Multilingual Language Models 中提出的。


Other Repositories

couchpotato888

crumb

Knut Jägersberg

LaMini-LM: 来自大规模指令的各种提炼模型

LaMini-LM 是从 ChatGPT 中提取的小型高效语言模型的集合,并在 2.58M 指令的大规模数据集上进行了训练。我们探索不同的模型架构、大小和检查点,并通过各种 NLP 基准和人工评估广泛评估它们的性能。

Teknium


List of all Foundation Models

来源:超过 10 亿的参数 LLM 列表 (matt-rickard.com)

  • GPT-J (6B) (EleutherAI)
  • GPT-Neo (1.3B, 2.7B, 20B) (EleutherAI)
  • Pythia (1B, 1.4B, 2.8B, 6.9B, 12B) (EleutherAI)
  • Polyglot (1.3B, 3.8B, 5.8B) (EleutherAI)
  • J1/Jurassic-1 (7.5B, 17B, 178B) (AI21)
  • J2/Jurassic-2 (Large, Grande, and Jumbo) (AI21)
  • LLaMa (7B, 13B, 33B, 65B) (Meta)
  • OPT (1.3B, 2.7B, 13B, 30B, 66B, 175B) (Meta)
  • Fairseq (1.3B, 2.7B, 6.7B, 13B) (Meta)
  • GLM-130B YaLM (100B) (Yandex)
  • YaLM (100B) (Yandex)
  • UL2 20B (Google)
  • PanGu-α (200B) (Huawei)
  • Cohere (Medium, XLarge)
  • Claude (instant-v1.0, v1.2) (Anthropic)
  • CodeGen (2B, 6B, 16B) (Salesforce)
  • NeMo (1.3B, 5B, 20B) (NVIDIA)
  • RWKV (14B)
  • BLOOM (1B, 3B, 7B)
  • GPT-4 (OpenAI)
  • GPT-3.5 (OpenAI)
  • GPT-3 (ada, babbage, curie, davinci) (OpenAI)
  • Codex (cushman, davinci) (OpenAI)
  • T5 (11B) (Google)
  • CPM-Bee (10B)
  • Cerebras-GPT

Resources

原文链接
编辑于 2023-05-12 18:45 ・IP 属地上海