QWEN2技术报告

摘要 1

1 简介introduction 2

2 分词器和模型TOKENIZER & MODEL 3

2.1 分词器 3

2.2 模型架构 3

3 预训练 5

3.1 预训练数据 5

3.2 长上下文训练 6

4 后训练 6

4.1 训练后数据 7

4.2 有监督的微调 8

4.3 根据人类反馈进行强化学习 8

5 评估 8

5.1 基础语言模型 9

5.2 指令调整模型 13

6 结论 21

摘要

本报告介绍了 Qwen2 系列,这是我们大型语言模型和大型多模态模型的最新成员。 我们发布了一整套基础和指令调整的语言模型,参数范围从 0.5B 到 72B,具有密集模型和专家混合模型。 Qwen2 超越了大多数先前的开放权重模型,包括其前身 Qwen1.5,并且在语言理解、生成、多语言熟练程度、编码、数学和推理等多个基准上表现出相对于专有模型的竞争性能。

旗舰模型 Qwen2-72B 表现出色:MMLU 84.2、GPQA 37.9、HumanEval 64.6、GSM8K 89.5、BBH 作为基础语言模型 82.4。 经过指令调整的变体 Qwen2-72B-Instruct 在 MT-Bench 上获得 9.1,在 Arena-Hard 上获得 48.1,在 LiveCodeBench 上获得 35.7。 此外,Qwen2 还展现了强大的多语言能力,精通约 30 种语言,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,凸显了其多功能性和全球影响力。旗舰模型 Qwen2-72B 表现出色:MMLU 84.2、GPQA 37.9、HumanEval 64.6、GSM8K 89.5、BBH 作为基础语言模型 82.4。 经过指令调整的变体 Qwen2-72B-Instruct 在 MT-Bench 上获得 9.1,在 Arena-Hard 上获得 48.1,在 LiveCodeBench 上获得 35.7。

为了促进社区创新和可访问性,我们在 Hugging Face和 ModelScope上公开提供 Qwen2 模型权重,并在 GitHub 上公开提供包括示例代码在内的补充材料。 这些平台还包括用于量化、微调和部署的资源,促进广泛的应用和研究工作。

1 简介introduction

随着 ChatGPT(OpenAI,2022)的出现,全球范围内对大型语言模型(LLM)的热情不断升温。 Llama 系列的发布(Touvron 等人,2023)进一步激发了开源社区的兴趣,特别是对于 GPT 级别的本地法学硕士。 最近,ChatGPT 的更新模型 Claude-3 Opus (Anthropic, 2024) 和 GPT-4o (omni) (OpenAI, 2024) 相继登上了 Chatbot Arena 的顶峰 (Chiang et al., 2024) 。 该平台因其对法学硕士的人工评估而广受好评。 此外,Llama3(AI@Meta,2024)已成为最先进的开放权重模型系列,缩小了与领先专有模型的性能差距,并被广泛认为是 GPT-4 级别。 越来越多有竞争力的法学硕士现在正在追求类似于 OpenAI 的 GPT 系列所取得的进步。 其中许多模型,包括 Qwen (Bai et al., 2023a)、Mistral (Jiang et al., 2023a)、Gemma (Mesnard et al., 2024) 等,都以开放权重的方式发布。

近几个月来,我们陆续推出了Qwen系列(Bai et al., 2023a)并进展到Qwen1.5(Qwen Team, 2024a)。 与此同时,我们推出了视觉语言模型 Qwen-VL (Bai et al., 2023b),并推出了音频语言模型 Qwen-Audio (Chu et al., 2023)。 在这项工作中,我们介绍了 Qwen 大型语言模型和大型多模态模型家族的最新成员:Qwen2。 Qwen2 是一系列 LLM,基于 Transformer 架构(Vaswani 等人,2017),使用下一个令牌预测进行训练。 该模型系列包括基础语言模型(经过预训练但不符合人类偏好)和指令调整模型(根据适用于聊天和代理目的的数据集对单轮和多轮指令进行微调)。 我们的版本包括四个密集模型,参数数量分别为 0.5 B、1.5 B、7B 和 72B,加上一个具有 57B个参数的专家混合 (MoE) 模型,其中每个代币激活 14B个参数。 较小的型号,特别是 Qwen2-0.5B 和 Qwen2-1.5B,专为轻松部署在智能手机、耳机和智能眼镜等便携式设备上而设计。 相反,较大的模型适合跨不同规模的 GPU 的部署。

所有模型均在包含超过 7 万亿个令牌、涵盖广泛领域和语言的高质量、大规模数据集上进行预训练。 与之前版本的 Qwen 相比,Qwen2 包含更广泛的语言数据,提高了代码和数学内容的数量和质量。 假设这种丰富可以提高法学硕士的推理能力。 关于训练后,所有模型都经过监督微调和直接偏好优化(DPO,Rafailov 等人,2023),通过学习人类反馈使它们与人类偏好保持一致。 这个过程赋予模型有效遵循指令的能力。

我们对 Qwen2 进行了全面评估,同时还选择了一系列基准模型,包括通过 API 访问的开放权重模型和专有模型。 Qwen2 在基本语言能力和指令调整功能的评估中均优于竞争模型。具体而言,Qwen2-72B-Instruct(我们的指令调整变体)在 MT-Bench 上得分 9.1(Zheng 等人,2023),在 Arena-Hard 上得分 48.1 (Chiang 等人,2024),以及 LiveCodeBench 上的 35.7(Jain 等人,2024)。 同时,基础语言模型 Qwen2-72B 在 MMLU 上获得 84.2 (Hendrycks et al., 2021a),在 GPQA 上获得 37.9 (Rein et al., 2023),在 HumanEval 上获得 64.6 (Chen et al., 2021),在 GPQA 上获得 89.5 GSM8K(Cobbe 等人,2021)和 BBH 上的 82.4(Suzgun 等人,2023)。

2 分词器和模型TOKENIZER & MODEL

本节介绍Qwen2的分词器和模型设计。 我们详细介绍了不同模型尺寸的模型架构和配置。

C:\Users\wangdj-c\Documents\WeChat Files\wxid_g70xeqs4q7nr22\FileStorage\Temp\ad28d86cfa1f4273f3fd8934e8844c0.jpg

2.1 分词器

继Qwen(Bai et al., 2023a)之后,我们采用基于字节级字节对编码(byte-level bytepair encoding)的相同分词器。 值得注意的是,该分词器表现出较高的编码效率,其相对于替代方案具有更好的压缩率就证明了这一点,从而促进了 Qwen2 的多语言功能。

各种规模的模型都采用由 151,643 个常规标记3 个控制标记组成的通用词汇表。 欲了解更多信息,请参阅 Bai 等人。(2023a)。 需要注意的是,出于分布式训练的考虑,嵌入的有效尺寸更大。

2.2 模型架构

Qwen2 系列从根本上构成了基于 Transformer 架构的大型语言模型,具有因果掩模的自注意力(Vaswani 等人,2017)。 具体来说,该系列包含 4 个尺度的密集语言模型和专家混合 (MoE) 模型。 在深入研究 MoE 模型的独特属性之前,我们先介绍密集模型的细节。

2.2.1 QWEN2 密集模型

Qwen2 密集模型的架构包括多个 Transformer 层,每个层都配备了因果注意机制和前馈神经网络(FFN)。 与 Qwen 的主要区别如下所述:

  • 分组查询注意力 我们采用分组查询注意力(GQA,Ainslie et al., 2023)代替传统的多头注意力(MHA)GQA 优化了推理过程中 KV 缓存的使用,显着提高了吞吐量。 各种型号尺寸的详细 KV 头配置在第 2.2.3 节中报告。
  • 使用 YARN 的双块注意力 为了扩展 Qwen2 的上下文窗口,我们实现了双块注意力(DCA,An 等人,2024),它将长序列分割成可管理长度的块。 如果输入可以在一个块中处理,DCA 会产生与原始注意力相同的结果。 否则,DCA 有助于有效捕获块内和块间标记之间的相对位置信息,从而提高长上下文性能。 此外,我们还使用 YARN (Peng et al., 2023) 来重新调整注意力权重,以获得更好的长度外推。
  • 此外,我们遵循 Qwen,使用 SwiGLU (Dauphin et al., 2017) 进行激活,使用旋转位置嵌入 (RoPE, Su et al., 2024) 进行位置嵌入,QKV 偏差 (Su, 2023) 进行注意,RMSNorm ( Jiang et al., 2023b) 和训练稳定性的预归一化

2.2.2 QWEN2 专家混合模型

Qwen2 MoE 模型的架构与 Qwen1.5-MoE-A2.7B 的架构非常相似(Qwen Team,2024c)。 作为原始 FFN 的替代品,MoE FFN 由 n 个单独的 FFN 组成,每个 FFN 充当专家。 每个令牌都被定向到特定的专家 Ei,以便根据门控网络 G 分配的概率进行计算:

p = softmax (G (x)) ,

y= Ei(x)

下面,我们介绍 Qwen2 MoE 的关键设计考虑因素。

专家粒度 MoE模型和密集模型之间的关键结构差异在于 MoE 层包含多个 FFN,每个 FFN 充当单独的专家。 因此,从密集架构过渡到 MoE 架构的一种直接策略是将每个专家的参数设置为等于原始密集模型中单个 FFN 的参数。 例如,从 Mistral-7B(Jiang 等人,2023a)过渡到 Mixtral 8x7B(Jiang 等人,2024)需要一次激活八个专家之一。 不同的是,我们的模型采用细粒度专家(Dai et al., 2024),创建较小规模的专家,同时激活更多数量的专家。 给定相同数量的专家参数和激活参数,细粒度专家提供更丰富的专家组合集。 通过利用这些细粒度的专家,Qwen2 MoE可以促进更加多样化和动态的专家利用,从而提高整体性能和适应性。

专家路由 专家路由机制的设计对于增强 MoE 模型的性能至关重要。 最近,在 MoE 层内集成共享专家和特定于路由的专家已成为一个显着趋势(Rajbhandari 等人,2022 年;Dai 等人,2024 年)。 我们采用这种方法,因为它有助于共享专家在各种任务中的应用,同时保留其他专家在特定路由场景中选择性使用。 共享专家和专业专家的引入为开发 MoE 路由机制提供了一种适应性更强、更高效的方法。

表 1:Qwen2 密集模型和 MoE 模型的架构。 对于 MoE 模型,57B-A14B 表示模型总共有 57B 个参数,每个令牌有 14B 个参数处于活动状态,Intermediate 大小表示每个专家的参数,#Activated Experts 不包括共享专家。

专家初始化 我们利用密集模型的权重,以与升级类似的方式初始化专家(Komatsuzaki et al., 2023)。 相比之下,我们的方法强调细粒度专家的多样化,以增强模型的代表性广度。 给定指定的专家中间大小 hE、专家数量 n 和原始 FFN 中间大小 hFFN,FFN 被复制 ⌈n×hE/hFFN⌉ 次。 这种复制确保了与指定数量的专家的兼容性,同时适应任意任意专家中间大小。 为了促进每个 FFN 副本内的多样性,参数沿着中间维度进行改组。 这保证了每个细粒度专家即使在不同的 FFN 副本中也能展现出独特的特征。 随后,从 FFN 副本中提取这些专家,并丢弃剩余的维度。 对于每个细粒度专家,其 50% 的参数会被随机重新初始化。 此过程在专家初始化中引入了额外的随机性,有可能增强模型在训练期间的探索能力。

2.2.3 型号配置

下面我们提供Qwen2 系列的关键配置和信息。 Qwen2系列由5个尺寸型号组成,分别是Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B。 表 1 列出了超参数和重要信息,例如预训练令牌的数量。 特别是,Qwen2-57B-A14B 是 Qwen2-7B 的升级版。 值得注意的是,与 Qwen1.5 模型相比,Qwen2 模型显示每个代币的键值 (KV) 大小要低得多。 此特性可减少内存占用,这在长上下文推理任务中特别有利

3 预训练

在 Qwen2 的预训练中,我们的工作重点是完善数据集和研究有效处理扩展上下文长度的方法。

3.1 预训练数据

Qwen2 模型的预训练涉及开发一个新的、大规模的、高质量的多语言数据集。 该数据集比之前的 Qwen 和 Qwen1.5 模型中使用的语料库有所改进(Bai 等人,2023a;Qwen Team,2024a),在几个关键领域提高了预训练数据的规模、质量和多样性

  • 质量增强 过滤算法已通过额外的启发式和基于模型的方法进行了改进,包括使用 Qwen 模型来过滤掉低质量数据。 此外,这些模型用于合成高质量的预训练数据
  • 数据扩展 与Qwen1.5(Qwen团队,2024a)相比,我们收集了更多的高质量代码、数学和多语言数据,增强了模型在各自领域的能力。 这个新数据集支持大约 30 种语言,例如英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语和越南语。
  • 分布改进 为了确保模型学习类似于人类学习的分布,我们在缩小模型上进行实验,以优化来自不同来源和领域的数据的混合。

基于这些增强,预训练数据从 Qwen1.5(Qwen Team,2024a)中的 3 万亿个代币扩展到 7 万亿个代币。 进一步放宽质量门槛的尝试导致了 12 万亿的代币数据集。 然而,与 7 万亿代币模型相比,在此数据集上训练的模型并未显示出显着的性能改进。 怀疑增加数据量并不一定有利于模型预训练。 考虑到训练成本,我们选择使用更高质量的7万亿代币数据集来训练更大的模型,为未来的模型迭代留下进一步的探索。

所有 Qwen2 密集模型(不包括 Qwen2-0.5B)都在这个包含超过 7 万亿个代币的大规模数据集上进行了预训练。 Qwen2-0.5B 使用 12 万亿代币数据集进行预训练。 MoE模型额外获得了4.5万亿代币的预训练,符合升级循环的原则。 与之前的 Qwen 模型类似,Qwen2 预训练过程中集成了高质量的多任务指令数据,以增强情境学习和指令跟踪能力。

3.2 长上下文训练

为了增强 Qwen2 的长上下文能力,我们在预训练的最后阶段将上下文长度从 4,096 个标记增加到 32,768 个标记这种扩展还伴随着大量高质量、长数据的引入。 结合这些增强功能,我们将 RoPE 的基本频率从 10,000 修改为 1,000,000,以优化长上下文场景中的性能(Xiong 等人,2023)。 为了充分利用模型的长度外推潜力,我们采用了 YARN 机制(Peng et al., 2023)和 Dual Chunk Attention 机制(An et al., 2024)。 这些策略使模型能够处理多达 131,072 个标记的序列,同时保持高性能,初步实验中的困惑度降级最小就证明了这一点。

4 后训练

在广泛的大规模预训练之后,我们进入了 Qwen2 的后训练阶段。 这一过程对于提高其在广泛领域的熟练程度至关重要,包括编码、数学、逻辑推理、指令遵循和多语言理解。 此外,它确保模型的生成与人类价值观和谐一致,使其有益、诚实且无害。 与严重依赖广泛的人类监督的传统方法不同,我们的方法侧重于以最少的人类注释进行可扩展的对齐(Cao et al., 2024)。 具体来说,我们研究了从人类反馈中获取监督微调(SFT)和强化学习(RLHF)的高质量演示和偏好数据的方法,旨在最大限度地减少人工标记的需求,同时最大限度地提高数据的质量和可靠性。

4.1 训练后数据

训练后数据主要由两部分组成:演示数据 D = {(xi, yi)} 和偏好数据 P = {(xi, y+ i , y− i )},其中 xi 代表指令 ,yi 表示满意的响应,y+ i 和 y− i 是 xi 的两个响应,其中 y+ i 是 y− i 的首选。 集合D用于SFT,而P用于RLHF。 训练数据的构建需要两个步骤:协作数据注释和自动数据合成。 首先,我们从大规模指令语料库中提取数据本体,从而产生广泛且多样化的高质量指令。 这些指令经过系统增强,变得更加复杂。 通过人工注释,我们获得目标响应 yi 及其正负对应项 (y+ i , y− i )。 随后,各种自动化采用对齐策略来合成大量跨代码、数学、指令遵循、创建、角色扮演和安全领域的人工注释数据。

4.1.1 协作数据

标注自动本体 提取该过程始于应用开放集细粒度标记器InsTag(Lu et al., 2024c)从大规模指令数据集中提取底层本体。 随后的人工精炼保证了提取本体的准确性。

指令选择 每个带有标签注释的指令都会评估标签多样性、语义丰富性、复杂性和意图完整性。 根据这些标准,我们选择了一组代表性指令(Dong et al., 2023)。

指令进化 为了丰富指令数据集,采用了自我进化策略(Zhao et al., 2024),促使 Qwen 模型向现有指令添加约束或要求,从而增加其复杂性并确保数据集中的不同难度级别 。

人工注释 使用不同的生成策略和不同尺度的 Qwen 模型获得对指令的多个响应。 注释者根据自己的偏好对这些响应进行排名,确保最佳响应符合既定标准,从而生成演示数据和偏好数据。

4.1.2 自动数据合成

维持对指令响应的注释质量提出了大规模的重大挑战,特别是那些需要专业知识、经验、细心或耐心的挑战。 为了应对这些挑战,我们设计了各种自动对齐策略来大规模合成数据。

拒绝抽样 对于具有明确最终答案的数学或类似任务,应用拒绝抽样(Yuan et al., 2023)来提高解决方案的质量。 大型语言模型 (LLM) 的任务是为每条指令生成多个响应,即推理路径。 得出准确结论并被模型认为合理的路径被保留,作为示范数据。 偏好数据是通过对比正确和错误路径生成的。

执行反馈 对于编码任务,法学硕士用于生成解决方案和相关的测试用例。 这些解决方案的功效是通过针对测试用例进行编译和执行来评估的,从而创建演示和偏好数据。 该方法也适用于评估指令遵循情况(Dong et al., 2024)。 对于每条具有约束(例如长度限制)的指令,法学硕士的任务是生成一个 Python 验证函数,以确保响应符合指令要求。

数据再利用 对于未经专门培训的注释者来说,在文学写作任务中创建熟练的响应是一项挑战。 为了解决这个问题,我们汇总了公共领域的高质量文学作品,并聘请法学硕士来制定不同详细程度的说明。 这些说明与原始作品配对,作为演示数据。 例如,为了编译具有生动且引人入胜的反应的角色扮演数据,我们从维基百科等知识库中获取详细的角色资料,并指导法学硕士生成相应的指令和反应(Lu et al., 2024b)。 这个过程类似于阅读理解任务,可确保保持角色个人资料的完整性。

宪法反馈 宪法人工智能是指指导法学硕士根据预定义的原则集生成响应的过程(Bai 等人,2022)。 为了确保遵守安全和价值观等准则,编制了体质数据集。 该数据集描述了应遵循的原则和应避免的原则。 它被用来指导法学硕士做出符合或偏离这些指南的回答,作为演示和偏好数据的参考。

4.2 有监督的微调

我们已经组装了一个广泛的指令数据集,包含超过 500,000 (50W)个示例,涵盖指令遵循、编码、数学、逻辑推理、角色扮演、多语言和安全等技能我们的模型针对两个时期进行了微调,序列长度为 32,768 个令牌。 为了优化学习,学习率从 7 × 10−6 逐渐降低到 7 × 10−7。 为了解决过度拟合问题,我们应用了 0.1 的权重衰减,并将梯度限制为最大值 1.0

4.3 根据人类反馈进行强化学习

我们的 RLHF 训练制度包括两个连续的阶段:离线和在线训练。 在离线训练阶段,我们使用预编译的偏好数据集 P 通过直接偏好优化来最大化 y+ i 和 y− i 之间的可能性差异(DPO,Rafailov 等人,2023)。 在在线训练阶段,模型利用奖励模型进行即时反馈,实时迭代地完善其性能。 具体来说,我们从当前策略模型中采样多个响应,奖励模型选择最喜欢和最不喜欢的响应,形成用于每个情节中的 DPO 的偏好对。 此外,我们采用在线合并优化器(Lu et al., 2024a)来减轻对齐税,即与将模型生成与人类偏好对齐相关的性能下降。

5 评估

为了彻底评估由基础模型和指令调整模型组成的 Qwen2 模型,我们实施了全面的评估协议。 该协议检查一系列能力,包括一般知识理解、语言理解、生成、编码、数学、推理和其他专业领域。 具体来说,除非另有说明,否则使用已建立的大型语言模型(LLM)基准数据集来评估基础模型,并通过几次提示来引出响应。 对于指令调整模型,除了基准评估之外,我们还优先考虑人类偏好评估。

5.1 基础语言模型

在本节中,我们将说明 Qwen2 系列的基础语言模型的评估。 具体来说,我们在知识和基本能力的基准数据集上评估模型,并应用多语言基准数据集来评估其对语言的支持。 由于模型尺寸有多种,我们将它们与相似或更大尺寸的最先进 (SOTA) 模型进行比较。

5.1.1 核心能力基准和评估协议

评估基础语言模型核心能力的常见做法是通过少样本或零样本提示实施基准数据集评估。 评估主要关注自然语言理解、一般问答、编码、数学、科学知识、推理等方面的模型表现。评估的数据集包括 MMLU (Hendrycks et al., 2021a) (5-shot)、MMLU- Pro (Wang et al., 2024) (5-shot)、GPQA (Rein et al., 2023) (5-shot)、Theorem QA (Chen et al., 2023a) (5-shot)、BBH (Suzgun et al., 2023) (5-shot) , 2023) (3-shot), HellaSwag (Zellers et al., 2019) (10-shot), Winogrande (Sakaguchi et al., 2021) (5-shot), TruthfulQA (Lin et al., 2022a) (0 -shot)、ARC-C(Clark 等人,2018)(25 次)、HumanEval(Chen 等人,2021)(0 次)、MBPP(Austin 等人,2021)(0 次) 、EvalPlus(Liu 等人,2023a)(0 次)、MultiPL-E(Cassano 等人,2023)(Python、C++、Java、PHP、TypeScript、C#、Bash 和 JavaScript 上的 0 次), GSM8K(Cobbe 等人,2021)(5 个镜头)、MATH(Hendrycks 等人,2021b)(4 个镜头)、C-Eval(Huang 等人,2023)(5 个镜头)和 CMMLU( Li 等人,2023)(5 次)。 多语言数据集可以分为四类:(a)考试:M3Exam(5-shot,我们只选择不需要图像的示例)、IndoMMLU(Koto et al., 2023)(3-shot)、ruMMLU(Fenogenova et al.) ., 2024) (5-shot),并翻译了 MMLU (Chen et al., 2023b)(关于阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、日语和韩语的 5-shot); (b) 理解:BELEBELE(Bandarkar 等人,2023)(5 次)、XCOPA(Ponti 等人,2020)(5 次)、XWinograd(Muennighoff 等人,2023)(5 次), XStoryCloze(Lin 等人,2022b)(0 次)和 PAWS-X(Yang 等人,2019)(5 次); (C)数学:MGSM(Goyal 等人,2022)(8-shot CoT); (d) 翻译:Flores-101(Goyal 等人,2022)(5 次)。

表 2:70B+ 型号的性能。 我们将 Qwen2-72B 与基线进行比较,包括 Mixtral-8x22B、Llama-3-70B、Qwen1.5-110B 和 Qwen1.5-72B。 对于大多数数据集,Qwen2-72B 表现出优于基线的优势。

Qwen2-72B 就 Qwen2 的最大模型而言,我们将 Qwen2-72B 与竞争性基线开放权重模型进行比较,包括 Mixtral-8x22B (Jiang et al., 2024)、Llama-3-70B (AI@Meta, 2024) ,以及 Qwen1.5-72B(Qwen 团队,2024a)和 Qwen1.5-110B(Qwen 团队,2024b)。 结果如表 2 所示。Qwen2-72B 在 MMLU 和 MMLU-Pro 上的一般知识理解方面均优于 Llama-3-70B,分别实现了 4.7 和 2.8 的准确度提升。 在科学评估中,Qwen2-72B 表现出优于 Llama-3-70B 的优越性,在 GPQA 和定理 QA 上分别提高了 1.6 和 9.8。 在丰富编码数据后,Qwen272B 在 HumanEval 和 MBPP 评估中比 Qwen1.5-72B 表现出显着的 18.3 和 10.0 个百分点的优势。 增强的数学相关数据使 Qwen2-72B 在 GSM8K 和 MATH 基准测试中比 Qwen1.5-72B 分别高出 10.0 和 17.0 个百分点。 考虑到 BBH、Winogrande 和 ARC-C,Qwen272B 显示出与 Llama-3-70B 相当的推理能力,这归因于其改进的编码和数学数据。 在评估中文语言理解时,Qwen2-72B 显着优于 Mixtral-8x22B 和 Llama-3-70B,也优于 Qwen1.5-72B。

Qwen2-57B-A14B 为了评估 MoE 模型,将 Qwen2-57B-A14B 与类似尺寸的基线进行比较。 这些基线包括其他 MoE 模型,例如 Mixtral-8x7B(Jiang 等人,2024)和 Jamba(Lieber 等人,2024),以及密集模型,例如 Yi-1.5-34B(Young 等人,2024)和 Qwen1.5-32B(Qwen Team,2024a),两者都有大约 300 亿个参数。 结果如表 3 所示。我们预计激活 140 亿个参数的 Qwen2-57B-A14B 将与 300 亿个参数密集等效 Qwen2 模型的性能相匹配。 我们的评估表明,Qwen2-57B-A14B 在自然语言理解任务中的表现与 Yi-1.5-34B 相当。 此外,它在编码和数学任务中优于基线模型。 此外,Qwen2-57B-A14B 表现出强大的中文理解能力,可与更大的 Qwen2-72B 型号相媲美。 本质上,Qwen2-57B-A14B 是一个高效的模型,虽然每次前向传递仅激活 140 亿个参数,但保持了 300 亿个参数密集模型的性能水平。

表 3:30B+ 密集模型和 40B+ MoE 模型的性能。 Qwen2-57B-A14B是一个MoE模型,总共有570亿个参数和140亿个激活参数,旨在匹配300亿个参数密集模型的性能。 此比较包括密集模型基线:Yi-1.5-34B 和 Qwen1.5-32B,以及 MoE 基线:Mixtral-8x7B 和 Jamba。 结果表明,Qwen2-57B-A14B 总体表现具有竞争力,在编码和数学任务中具有显着的优势。

Qwen2-7B 7B 模型得到广泛应用,因为它可以在配备 16GB 内存的加速器上以 16 位浮点执行。 我们的重点是将该模型与其他领先的 7B 模型进行比较,包括 Llama-3-8B,它最近在聊天机器人竞技场中表现出了卓越的性能(Chiang 等人,2024)。 此比较还包括 Mistral-7B-v0.2(Jiang 等人,2023a)、Gemma-7B(Mesnard 等人,2024)以及我们的前身 Qwen1.5-7B(Qwen Team,2024a)。

表 4:7B+ 型号的性能。 我们将 Qwen2-7B 与之前发布的最先进的 7B+ 模型进行比较,包括 Mixtral-7B、Gemma-7B、Llama-3-8B 和我们之前的 Qwen1.5-7B。 在大多数评估数据集中,Qwen2-7B 表现出优于基线的显着优势。

结果如表 4 所示。与其他模型相比,Qwen2-7B 在大多数数据集上表现出优异的性能,特别是在编码任务、数学和中文任务中表现出色。 它在多语言理解和考试方面也表现出了强劲的表现。 这表明 Qwen2-7B 已针对各种基于语言和逻辑的任务进行了优化,展示了其多功能性和先进功能。

Qwen2-1.5B 和 Qwen2-0.5B 为了评估我们较小模型(特别是 Qwen2-1.5B 和 Qwen2-0.5B)的性能,我们将它们与已建立的基线进行比较:Phi-2(Abdin 等人,2024 年)、Gemma- 2B(Mesnard 等人,2024)和 Qwen1.5-1.8B(Qwen 团队,2024a)。 结果如表 5 所示。在语言理解方面,Qwen2-1.5B 优于 Phi-2(一种使用教科书数据训练的模型)。 对于编码任务,Qwen2-0.5B 与 Gemma-2B 和 Qwen1.5-1.8B 的性能相匹配,而 Qwen2-1.5B 超越了这些基线(Phi-2 除外)。 与竞争对手相比,这两种 Qwen2 模型在数学方面都表现出了卓越的性能。 在一般推理方面,我们发现Phi-2总体上优于所有其他推理,这在一定程度上反映了教科书数据对于推理能力的重要性。 在TruthfulQA中,Qwen2-1.5B表现最好,证明较小的模型不一定会出现幻觉。 在中文理解方面,两个 Qwen2 模型都优于其他所有模型,这一趋势与各自比较中的较大模型一致

总体而言,Qwen2 系列在不同型号尺寸的基准上表现出卓越的性能。 值得注意的是,Qwen2-72B 在所有 Qwen2 模型中表现出最高的性能,凸显了模型尺寸缩放的功效。

表 5:较小型号的性能。 我们将 Qwen2-0.5B 和 Qwen2-1.5B 与之前的 SOTA 小型型号(包括 Phi-2、Gemma-2B 和 Qwen1.5-1.8B)进行比较。 Qwen2-0.5B凭借更小的模型尺寸实现了具有竞争力的性能,并且Qwen2-1.5B显着优于Qwen2-0.5B。

5.2 指令调整模型

为了批判性地评估指令调整模型,我们实施了一种多方面的方法。 使用开放数据集和基准对基础技能和人类偏好进行评估。 我们详细的内部检查进一步探讨了模型在关键领域的能力。 特别关注评估长上下文能力。 安全措施包括多语言安全评估和红队演习。 以下各节详细介绍了评估方法及其结果。

5.2.1 开放基准评估

为了全面评估指令调整模型的质量,我们编写了自动和人工评估来评估能力和人类偏好。 对于基本能力的评估,我们在预训练模型评估中应用了类似的数据集,针对自然语言理解、编码、数学和推理。 具体来说,我们评估语言理解和知识的 MMLU、MMLU-Pro、GPQA 和 Theorem QA,评估编码的 HumanEval、MBPP、MultiPL-E 和 LiveCodeBench v1 (Jain et al., 2024),评估数学的 GSM8K 和 MATH。 此外,我们通过评估 MT-Bench (Zheng et al., 2023)、Arena-Hard (Li et al., 2024)、AlignBench (Liu et al., 2023b) 等基准来评估人类偏好对齐和指令遵循的表现 )、MixEval(Ni 等人,2024),其结果近似于 Chatbot Arena 的结果,以及 IFEval(Zhou 等人,2023)4 用于指令跟踪。

Qwen2-72B-Instruct 我们将 Qwen2-72B-Instruct 与指令调整模型(包括 Mixtral-8x22B-Instruct、Llama-3-70B-Instruct 以及 Qwen1.5-72B-Chat)进行比较。 结果如表6所示。可以发现,强大的基础语言模型可以帮助提高指令调整模型的下游性能。 具体来说,Qwen2-72B-Instruct 在语言理解、编码和数学等领域(GPQA 和 MBPP 除外)优于其他同行。 在人类偏好对齐和指令遵循方面,Qwen2-72B 比基线具有显着优势。 我们认为这一成就归功于高质量的预训练模型以及训练后数据和训练技术的改进。

表 6:70B+ 指令调整模型的性能。 我们将 Qwen2-72B-Instruct 与 Mixtral-8x22B-Instruct、Llama-3-70B-Instruct、Qwen1.5-72B-Chat 和 Qwen1.5-110B-Chat 进行比较。“Instruct”或“-Chat”被省略 桌子。 Qwen2-72B-Instruct展现了核心能力的优势,以及人类偏好对齐方面的卓越表现。

Qwen2-57B-A14B-Instruct 对于中型模型,我们将 Qwen2-57B-A14B-Instruct 与 Mixtral-8x7B-Instruct(另一个 MoE 基线)以及具有超过 300 亿个参数的密集 SOTA 模型进行比较,例如 Yi- 1.5-34B-聊天和Qwen1.5-32B-聊天。 结果如表7所示。与Qwen1.5-32B-Chat相比,Qwen2-57B-A14B-Instruct在几乎所有基准测试中都达到了优越的性能,并且与30B SOTA模型Yi-1.5-34B-Chat、Qwen2-相比 57BA14B-Instruct 在除数学以外的大多数评估中都取得了优势。 在比对评估方面,Qwen2-57B-A14B-Instruct的优势尤为明显。

Qwen2-7B-Instruct 在 7B 至 9B 模型范围内,我们将 Qwen2-7B-Instruct 与 Llama-3-8B-Instruct、Yi-1.5-9B-Chat、GLM-4-9B-Chat 和 Qwen1.5 进行比较 -7B-聊天。 结果如表 8 所示。在综​​合评估中,Qwen2-7B-Instruct 与其前身 Qwen1.5-7B-Chat 相比取得了显着进步,特别是在编码和数学相关任务中取得了更高的分数。 与最新的 SOTA 模型 Llama-38B-Instruct 相比,Qwen2-7B-Instruct 表现出了竞争性的性能,特别是在编码方面实现了优越的性能。 然而,在指令遵循方面,Qwen2-7B-Instruct 大大落后于竞争对手。 为了解决这一限制,我们计划通过提高训练后数据的质量来增强 7B 模型的指令跟踪能力,确保对复杂命令的更强大的理解和执行。

Qwen2-1.5B-Instruct 和 Qwen2-0.5B-Instruct 在较小模型的背景下,我们将 Qwen2-0.5B-Instruct 与 Qwen1.5-0.5B-Chat 进行比较,并将 Qwen2-1.5B-Instruct 与 Qwen1.5- 进行比较。 1.8B-聊天。 值得注意的是,为较大模型设计的某些数据集的复杂性超出了这些较小模型的能力; 因此,我们的分析集中于选定的子集。 如表 9 所示,Qwen2 模型在核心功能和指令执行任务方面均表现出优于其前代产品的显着优势。 这一成就主要归功于预训练数据的扩展。 因此,我们的结果证实,即使在参数模型不足十亿的领域,数据扩展仍然是增强模型性能的有效策略。

表 7:30B+ 密集和 40B+ MoE 指令调整模型的性能。 我们将 Qwen2-57B-A14B-Instruct 与类似尺寸的 MoE 模型 Mixtral-8x7B-Instruct、Yi-1.5-34B-Chat 和 Qwen1.5-32B-Chat 等 30B 密集模型进行比较。“-Instruct”或“- 表中省略了“聊天”。 Qwen2-57B-A14B-Instruct 与最近的 SOTA 30B 密集模型具有竞争力,并且显着优于 MoE 基线。

5.2.2 内部自动评估

尽管有许多用于评估的开放基准数据集,但我们认为这还远远不足以完全理解法学硕士的能力。 具体来说,我们制作了一系列内部数据集来评估模型的不同能力,例如知识理解、文本生成、编码等。评估是中文和英文的。 结果分别汇总在表10和表11中。

中文评估 对于中文评估,我们重点比较 Qwen2 模型与 Qwen1.5 模型的性能。 对于小型模型,即使参数较少,Qwen2-1.5B-Instruct 在几乎所有评估中通常都优于 Qwen1.5-1.8B-Chat。 对比7B机型而言,Qwen2的优势更为显着。 值得注意的是,Qwen272B 的性能优于 Qwen1.5-110B-Chat,尽管后者的参数要多得多。 相对于 Qwen1.5-32B-Chat,MoE 模型在大多数领域都显示出优越的性能(不包括知识理解)。 这种差异可能归因于预训练令牌的短缺。 在不久的将来,我们将继续对 MoE 模型进行预训练,以发现其扩展行为。

英语评估 对于英语,我们将 Qwen2 与 Qwen1.5 和 Llama-3 进行比较。 同样,Qwen2 的小型型号明显优于 Qwen1.5 同类产品。 然而,与 Llama-3-70B 相比,Qwen2-72B-Instruct 略有落后,尤其是在理解和编码方面。 我们假设预训练的英语标记数量和训练后数据的数量和多样性都会导致英语的性能差距。

表 8:7B+ 指令调整模型的性能。 我们将 Qwen2-7B-Instruct 与最新具有 7-90 亿个参数的 SOTA 模型进行比较,包括 Llama-3-8B-Instruct、Yi-1.5-9B-Chat、GLM-4-9B-Chat 和 Qwen1.5-7B -Chat。表中省略了“-Instruct”或“-Chat”。 Qwen2-7BInstruct 展示了与 Llama-3-8B-Instruct 相比的竞争性能。

表 9:较小的指令调整模型的性能。 我们将Qwen2-0.5B-Instruct和Qwen2-1.5B-Instruct与Qwen1.5-0.5B-Chat和Qwen2-1.8B-Chat进行比较。表中省略了“-Instruct”或“-Chat”。 与相似大小的基线相比,Qwen2 的性能显着超过了 Qwen1.5。

5.2.3 长上下文能力

采用三种方法来评估长上下文能力:大海捞针(NIAH,Kamradt,2023)、NeedleBench(OpenCompass Contributors,2023)和 LV-Eval(Yuan 等人,2024)。 大海捞针这个实验评估了模型在大量文本中查明事实的能力。 长度为 8K、16K、...、128K 标记的文本经过精心设计,事实被策略性地定位在不同的深度。 每个深度区间,例如从 0% 到 10%,包含两个实例。 对于超过 32K 的上下文,本次评估中应用了 YARN(Peng et al., 2023)。 如图 1 所示,Qwen2-72B-Instruct 在从整个 128K 上下文中检索信息方面表现出卓越的准确性。 加上其固有的优势,假设有足够的资源可用,该模型就成为处理大量文本的最佳选择。 此外,同系列中的模型在不同的上下文长度下都展示了卓越的性能。 准确地说,Qwen27B-Instruct 在处理高达 128K 令牌的上下文时实现了高精度。 同时,Qwen2-57B-A14B-Instruct 可以熟练地管理高达 64K 令牌的上下文,而 Qwen2 系列中的两个较小的型号可以支持 32K 令牌的上下文。

表 10:Qwen2-Instruct 模型在我们内部中文自动评估基准上的性能。 超过同等尺寸 Qwen1.5 同类产品的 Qwen2 型号的分数以粗体显示。 Qwen2-57B-A14B-Instruct 与 Qwen1.5-32B-Chat 对比

表 11:Qwen2-Instruct 模型在我们内部英语自动评估基准上的性能。 超过同等尺寸 Qwen1.5 和 Llama-3 同类产品的 Qwen2 型号以粗体显示。 Qwen2-57B-A14B-Instruct 与 Qwen1.5-32B-Chat 进行比较。

图 1:在 Haystack 测试中,Qwen2 指令调整模型在 Needle 上的性能。 所有支持上下文长度超过 32k token 的模型都集成了 YARN 机制。

表 12:Qwen2-72B-Instruct 和 Qwen2-7B-Instruct 在 NeedleBench 和 LV-Eval 上的性能。 +YARN+DCA 不会改变 32k 令牌内的模型行为。

表 13:Qwen2-72B-Instruct 和专有法学硕士在多语言人类评估中的表现。 我们将 Qwen2-72B-Instruct 与 GPT-3.5-Turbo-1106、GPT-4-Turbo-0409、GPT4o-0513、Claude-3-Opus-0229 进行比较。 分数范围为 1 到 5。总体而言,Qwen2-72B-Instruct 的性能明显优于 GPT-3.5-Turbo,但与过去 6 个月发布的专有模型相比,仍有一些进步。

NeedleBench NeedleBench 通过在段落中包含多个事实(两到五个)来应对 NIAH 的挑战,从而需要同时识别和多跳推理(multi-hop reasoning)。 表 12 显示,YARN 和 DCA 的集成(An et al., 2024)显着提高了 Qwen2 模型的长上下文能力。 Qwen2-7B-Instruct 超越了 ChatGLM4-9B-1M(Zeng 等人,2024),后者声称上下文长度为 1M。 此外,Qwen2-72B-Instruct 表现出强大的性能,与 ChatGLM4-9B-1M 相比,准确度仅降低了 6 个点,ChatGLM4-9B-1M 的下降更为明显,达到了 11 个点,特别是考虑到其初始准确度较低。

LV-Eval LV-Eval 包含 11 个不同的 QA 数据集,需要同时理解多个证据。 为了纠正其原始指标过于严格并导致假阴性率较高的缺点,我们采用关键词召回率作为报告分数。 如表 12 所示,集成 YARN 和 DCA 极大地增强了 Qwen2 模型在 LV-Eval 上的长上下文能力。 Qwen2-7B-Instruct 与 ChatGLM4-9B-1M 达到了同等水平,尽管在扩展环境下下降更为明显。 此外,Qwen2-72B-Instruct 在所有长度上都表现出强大的性能,证实了其处理长上下文任务的能力。

5.2.4 多语言评估

对于多语言评估,我们实施了全面的人工评估来评估多语言能力。 具体来说,我们设计了不同的测试用例来评估大型语言模型的不同功能,并且我们有多种语言的测试用例。 对于标注者,我们为每种语言邀请一名该语言专业的专业标注者进行评估。 对于每个测试用例,注释者都会对模型的响应进行评分,分数从 1 到 5。我们报告模型的结果以及不同语言评估的基线。 从表13可以发现,平均而言,Qwen2-72B-Instruct显着优于GPT-3.5Turbo,与GPT-4-Turbo具有竞争力,略落后于Claude-3-Opus。 这表明我们的多语言预训练和指令调优数据有助于 Qwen2-72B-Instruct 的多语言能力,并且与大多数最先进的专有法学硕士具有竞争力。

5.2.5 安全与责任

具有公开权重的法学硕士可以有效地加速研究及其应用的发展。 此外,我们认为建立安全和负责任的法学硕士至关重要,这样才能显着减轻人工智能技术滥用的影响。 我们实施多语言安全评估,以不同语言测试法学硕士。 具体来说,我们评估模型在非法行为、欺诈、色情内容和隐私。 我们收集了容易越狱的提示,并用它们来测试模型是否可以通过拒绝提供安全的响应。

表 14:安全评估模型的表现。 我们将 Qwen2-72B-Instruct 与 GPT-4 和 Mixtral-8x22B-Instruct 进行比较。 越低越好。 Qwen2-72B-Instruct 比竞争对手拒绝了更多带有风险的提示。

结果如表 14 所示,其中显示了模型产生的有害反应的比例,越低越好。 可以看出,Qwen2-72B-Instruct 的性能优于专有模型 GPT-4,并且显着优于开放权重模型 Mixtral-8x22B-Instruct。 然而,我们相信我们的模型还有很大的改进空间,成为一个更安全、更负责任的模型,特别是在色情内容方面,这是一个传统上很难区分的类别,即使对人类来说也是如此。

6 结论

本技术报告介绍了 Qwen2 系列,这是一套多功能的基础和指令调整语言模型参数范围从 0.5 到 720 亿个参数,包括密集模型和专家混合架构模型。 Qwen2 的性能优于之前的开放权重模型,尤其是其前身 Qwen1.5,并且在语言理解、生成、多语言能力、编码、数学和推理等广泛的基准测试中显示出与专有模型相比的竞争性能。 在此更新中,我们特别关注长上下文、多语言、编码、数学能力以及安全和责任。 为了致力于促进社区内的创新和可访问性,我们公开了 Qwen2 模型权重,使研究人员和开发人员能够在各种应用和研究项目中充分利用 Qwen2 的潜力。 通过这些努力,我们旨在为人工智能技术的进步及其对社会的积极影响做出贡献。

Written on August 6, 2024