添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
面冷心慈的大海  ·  华尔街见闻·  2 月前    · 
健壮的眼镜  ·  Error: Cannot find ...·  1 年前    · 
很酷的南瓜  ·  apache spark - How ...·  1 年前    · 
慷慨大方的火腿肠  ·  c# - The call is ...·  1 年前    · 
含蓄的保温杯  ·  SQL Server: any ...·  1 年前    · 
我要建议
备案 控制台 登录/注册
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《 阿里云开发者社区用户服务协议 》和 《 阿里云开发者社区知识产权保护指引 》。如果您发现本社区中有涉嫌抄袭的内容,填写 侵权投诉表单 进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

一、背景介绍

非常感谢您提供中文竞技场的详细场景介绍以及多个强大的AI模型,针对不同模型提出了问题并进行了测试。这里是我的评测文章:

中文竞技场是在modelscope魔搭搭建的ai语言对话,包含四套模型如下:

模型一: ChatGLM-6B模型介绍 ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

模型二: moss-moon-003-sft

模型三: BiLLa: A Bilingual LLaMA with Enhanced Reasoning Ability BiLLa 是开源的推理能力增强的中英双语 LLaMA 模型. 模型的主要特性有: 较大提升 LLaMA 的中文理解能力, 并尽可能减少对原始 LLaMA 英文能力的损伤; 训练过程增加较多的任务型数据, 利用 ChatGPT 生成解析, 强化模型理解任务求解逻辑; 全量参数更新, 追求更好的生成效果. Github: https://github.com/Neutralzz/BiLLa 以下是经过有限的评测分析得出的结论: BiLLa-7B-LLM 中英语言建模能力显著优于 Chinese-LLaMA-7B; BiLLa-7B-SFT 中文推理能力显著优于 BELLE-LLaMA-Ext-7B 等模型; 由GPT4打分, BiLLa-7B-SFT 在英文指令上得分显著高于 ChatGLM-6B, 中文得分持平, 但解题与代码得分更高.

模型四: BELLE-LLaMA-13B-2M 搭建的ai对话包含双模型匿名对话、模型自动对话、单模型对话,三种对话模式,用了很多开源的ai对话模板 属于非常厉害的组合并且外接了很多ai对话模型,我们点击立刻进入进行测评:

我们采用单点生成模式,对两个模型进行多次生成( 10次左右 )发现模型 a 稍微有一些问题,生成的文章内容均是乱码中文,或者只能理解一部分,而模型 B 生成的内容较为准确,也符合提问人的要求,我们来切换不同的对话类型,试一下其他的对话情况,清除对话历史后可以选择其他对话类型

ChatGLM2-6B : 中英双语对话模型,由清华大学开发 BiLLa-7B-SFT : 推理能力增强的中英双语LLaMA模型,由独立研发者开发 Ziya-LLaMa-13B-v1 : 姜子牙通用大模型,由IDEA研究院开发 ChatPLUG-initial : 初始开放域对话模型,由阿里开发 BELLE-LLaMa-13b-2m-v1 : 中文对话大模型,由链家开发 moss-moon-003-sft : 支持中英双语和多种插件的开源对话语言模型,由复旦大学开发 ChatYuan-large-v2 : 支持中英双语的功能型对话语言大模型,由复旦大学开发 ChatPLUG-100Poison : #100PoisonMpts治理后模型,由阿里开发 Baichuan-13B : Baichuan-13B-Chat为Baichuan-13B系列模型中对齐后的版本 Chinese-Alpaca-plus-13B : 中文LLaMA-Plus, Alpaca-Plus 13B版本 ChatFlow-7B : ChatFlow中文对话模型 Phoenix-7B : 由港中文大学(深圳)及深圳市大数据研究院四月发布的多语言大模型 RWKV-4-Raven-7B : 由RWKV(100% RNN)语言模型提供支持的中文对话模型 Qwen-Chat-7B : 阿里云研发的通义千问大模型系列的70亿参数规模的模型

三、部分总结体验

写作创作领域

在这个领域中 , 我让模型分别为我自动创作一段小说开头。 ChatGLM-6B 生成的文字通顺流畅 , 段落结构合理 , 但是想象力不足 ;moss-moon-003-sft 的创作能力较弱 , 生成的内容平淡无奇 ;BELLE-LLaMA-13B-2M 的创作语言丰富多彩 , 段落逻辑清晰 , 想象力较强。

代码相关领域

在这个领域中 , 我要求模型给出获取当前时间的 Python 代码。 ChatGLM-6B 直接给出正确可运行的代码 ;moss-moon-003-sft 生成的代码存在明显语法错误 ;BELLE-LLaMA-13B-2M 给出的代码语法正确但逻辑有误 , 不能达到预期效果。

知识常识领域

在这个领域中 , 我让模型解释 闰年 的含义。 ChatGLM-6B 给出了简单的定义 ;moss-moon-003-sft 对这个词没有理解 ;BELLE-LLaMA-13B-2M 给出了比较完整和准确的解释。

通过上述测试 , 我发现不同的 AI 模型确实各有所长。 ChatGLM-6B 在代码生成方面表现突出 ;BELLE-LLaMA-13B-2M 在创作和知识讲解上更胜一筹 ; moss-moon-003-sft 的能力相对较弱。这为我们的 AI 开发提供了非常好的对比和启发。中文竞技场提供了难得的评测机会 , 让我们更加全面地了解不同 AI 的优劣。这次评测对我来说也是一个宝贵的学习经历。再次感谢主办方给予我这次独特的评测体验 !