Skip to content

Releases: ymcui/Chinese-LLaMA-Alpaca-3

中文羊驼大模型三期 v3.0

30 May 00:45
cfe8b26
Compare
Choose a tag to compare

本次发布Llama-3-Chinese-8B-Instruct-v3(指令模型),融合了v1、v2以及Meta原版Instruct模型,在中文任务上大幅超越v1/v2版,英文任务上与Meta原版保持持平,主观体验效果显著提升。

下载方式

模型名称 完整版 LoRA版 GGUF版
Llama-3-Chinese-8B-Instruct-v3
(指令模型)
[🤗Hugging Face]
[🤖ModelScope]
[wisemodel]
N/A [🤗Hugging Face]
[🤖ModelScope]

模型效果

客观任务效果请查阅:https://github.com/ymcui/Chinese-LLaMA-Alpaca-3?tab=readme-ov-file#模型效果

Llama-3-Chinese-8B-Instruct-v3已登陆大模型竞技场,当前胜率及Elo评分显著超越其他模型。

⚔️ 模型竞技场:http://llm-arena.ymcui.com/

What's Changed

  • Add Open LLM Leaderboard results by @ymcui in #27
  • Fix for termination issue by @akxlr in #38
  • Add GPT-4o ruozhiba data & clean GPT-4t data by @ymcui in #45
  • Update script with MPS backend & fix minor by @ymcui in #55
  • Fix SFT training data format by @iMountTai in #60

New Contributors

  • @akxlr made their first contribution in #38

Full Changelog: v2.0...v3.0

中文羊驼大模型三期 v2.0

08 May 02:37
04296a0
Compare
Choose a tag to compare

本次发布Llama-3-Chinese-8B-Instruct-v2(指令模型),直接采用500万条指令数据在Meta-Llama-3-8B-Instruct 上进行精调。

v1版(PT+SFT,基于非Instruct版训练)和v2版(SFT,基于Instruct版训练)各有特点,可根据下游任务效果、实际主观体验等方面选择。

下载方式

模型名称 完整版 LoRA版 GGUF版
Llama-3-Chinese-8B-Instruct-v2
(指令模型)
[🤗Hugging Face]
[🤖ModelScope]
[wisemodel]
[🤗Hugging Face]
[🤖ModelScope]
[wisemodel]
[🤗Hugging Face]
[🤖ModelScope]

客观任务效果

由于Llama-3-Chinese-8B-Instruct-v2使用的初始化模型为Meta-Llama-3-8B-Instruct(其效果比非Instruct版高),相关下游任务指标相比v1均有显著提升,部分指标上超过原版。以下是部分结果:

Llama-3-Chinese-8B-Instruct Llama-3-Chinese-8B-Instruct-v2
C-Eval Valid 49.3 / 51.5 51.6 / 51.6
C-Eval Test 48.3 / 49.4 49.7 / 49.8
CMMLU Test 49.7 / 51.5 51.8 / 52.4
MMLU Valid 60.1 / 61.3 62.1 / 63.9
MMLU Test 59.8 / 61.8 62.6 / 63.7
LongBench Average 29.6 46.4

详细结果请参看:https://github.com/ymcui/Chinese-LLaMA-Alpaca-3?tab=readme-ov-file#模型效果

主观体验效果

稍后Llama-3-Chinese-8B-Instruct-v2将登陆大模型竞技场,届时将与其他模型PK效果。

注:初期票数较少,排名结果不稳定。

中文羊驼大模型三期 v1.1

07 May 00:20
Compare
Choose a tag to compare

本次更新添加了预训练/精调脚本、模型输出示例、增加wisemodel分流等内容。

What's Changed

Full Changelog: v1.0...v1.1

中文羊驼大模型三期 v1.0

30 Apr 01:23
ba95712
Compare
Choose a tag to compare

中文羊驼大模型已正式发布,本次开源了Llama-3-Chinese-8B(基座模型)和Llama-3-Chinese-8B-Instruct(指令模型)。

  • Llama-3-Chinese-8B:基座模型,使用120GB语料进行增量训练
  • Llama-3-Chinese-8B-Instruct:指令/chat模型,在Llama-3-Chinese-8B的基础上进一步通过指令精调(500万条指令)获得

下载方式

模型名称 类型 参数量 完整版 LoRA版 GGUF版
Llama-3-Chinese-8B 基座模型 8B [🤗Hugging Face]
[🤖ModelScope]
[🤗Hugging Face]
[🤖ModelScope]
[🤗Hugging Face]
[🤖ModelScope]
Llama-3-Chinese-8B-Instruct 指令模型 8B [🤗Hugging Face]
[🤖ModelScope]
[🤗Hugging Face]
[🤖ModelScope]
[🤗Hugging Face]
[🤖ModelScope]

模型特点

📖 使用原版Llama-3词表

  • Llama-3相比其前两代显著扩充了词表大小,由32K扩充至128K,并且改为BPE词表
  • 初步实验发现Llama-3词表的编码效率与我们扩充词表的中文LLaMA-2相当,效率约为中文LLaMA-2词表的95%(基于维基百科数据上的编码效率测试)
  • 结合我们在中文Mixtral上的相关经验及实验结论1,我们并未对词表进行额外扩充

🚄 长上下文长度由二代4K扩展至8K

  • Llama-3将原生上下文窗口长度从4K提升至8K,能够进一步处理更长的上下文信息
  • 用户也可通过PI、NTK、YaRN等方法对模型进行长上下文的扩展,以支持更长文本的处理

⚡ 使用分组查询注意力机制

  • Llama-3采用了Llama-2中大参数量版本应用的分组查询注意力(GQA)机制,能够进一步提升模型的效率

🗒 全新的指令模板

  • Llama-3-Instruct采用了全新的指令模板,与Llama-2-chat不兼容,使用时应严格遵循官方指令模板
  1. Cui and Yao, 2024. Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral