QWEN1 技术报告

大型语言模型 (LLM) 彻底改变了人工智能领域，使以前被认为是人类独有的自然语言处理任务成为可能。在这项工作中，我们介绍了 QWEN1，这是我们大型语言模型系列的第一部分。 QWEN 是一个综合语言模型系列，包含具有不同参数数量的不同模型。它包括 QWEN（基本预训练语言模型）和 QWEN-CHAT（通过人类对齐技术进行微调的聊天模型）。基础语言模型在众多下游任务中始终表现出卓越的性能，而聊天模型，特别是那些使用人类反馈强化学习 (RLHF) 训练的模型，具有很强的竞争力。 聊天模型拥有用于创建代理应用程序的高级工具使用和规划功能，即使与执行复杂任务（例如使用代码解释器）的大型模型相比，也显示出令人印象深刻的性能。此外，我们还开发了专门的编码模型 CODE-QWEN 和 CODE-QWEN-CHAT，以及基于基础语言模型构建的数学模型 MATH-QWEN-CHAT。与开源模型相比，这些模型的性能显着提高，但略微落后于专有模型。

1 introduction

大语言模型 (LLM)（Radford 等人，2018；Devlin 等人，2018；Raffel 等人，2020；Brown 等人，2020；OpenAI，2023；Chowdhery 等人，2022；Anil 等人。，2023；Thoppilan 等人，2022；Touvron 等人，2023a；b）为复杂的推理和解决问题的任务提供了强大的基础，彻底改变了人工智能（AI）领域。 这些模型能够将大量知识压缩到神经网络中，使它们成为令人难以置信的多功能代理。 通过聊天界面，法学硕士可以执行以前被认为是人类专有领域的任务，特别是那些涉及创造力和专业知识的任务（OpenAI，2022；Ouyang 等人，2022；Anil 等人，2023；Google，2023；人择，2023a；b)。它们可以与人类进行自然语言对话，回答问题，提供信息，甚至生成故事、诗歌和音乐等创意内容。这导致了广泛的应用程序的开发，从聊天机器人和虚拟助手到语言翻译和摘要工具。

法学硕士不仅限于语言任务。它们还可以充当通用代理（Reed et al., 2022; Bai et al., 2022a; Wang et al., 2023a; AutoGPT, 2023; Hong et al., 2023），与外部系统、工具和模型来实现人类设定的目标。例如，法学硕士可以理解多模态指令（OpenAI，2023；Bai et al.，2023；Liu et al.，2023a；Ye et al.，2023；Dai et al.，2023；Peng et al.，2023b），执行代码（Chen 等人，2021a；Zheng 等人，2023；Li 等人，2023d）、使用工具（Schick 等人，2023；LangChain, Inc.，2023；AutoGPT，2023）等等。这为人工智能应用开辟了一个全新的可能性世界，从自动驾驶汽车和机器人到医疗保健和金融。随着这些模型的不断发展和改进，我们预计在未来几年会看到更多创新和令人兴奋的应用。无论是帮助我们解决复杂的问题、创造新的娱乐形式，还是改变我们的生活和工作方式，法学硕士都将在塑造人工智能的未来方面发挥核心作用。

图 1：Qwen 系列的型号谱系。我们在包含数万亿个标记的海量数据集上对语言模型（即 QWEN）进行了预训练。然后，我们使用 SFT 和 RLHF 使 QWEN 与人类偏好保持一致，因此我们有了 QWEN-CHAT，特别是其改进版本 QWEN-CHAT-RLHF。此外，我们还开发了专门的编码和数学模型，例如使用类似技术的基于 QWEN 的 CODE-QWEN、CODE-QWEN-CHAT 和 MATH-QWEN-CHAT。请注意，我们之前发布了多模态 LLM、QWEN-VL 和 QWEN-VLCHAT（Bai 等人，2023），它们也基于我们的 QWEN 基础模型。

尽管法学硕士拥有令人印象深刻的能力，但它们经常因缺乏可重复性、可指导性和服务提供商的可及性而受到批评。在这项工作中，我们很高兴地展示并发布了我们的LLM系列的初始版本QWEN。QWEN是一个源自中文短语“Qianwen”的绰号，翻译过来就是“成千上万的提示”，传达了拥抱广泛的概念。查询范围。QWEN 是一个综合语言模型系列，包含具有不同参数数量的不同模型。该模型系列包括基本的预训练语言模型、使用人类对齐技术微调的聊天模型，即监督微调（SFT）、人类反馈强化学习（RLHF）等，以及编码和数学方面的专门模型。详细信息概述如下：

基础语言模型QWEN经过了广泛的训练，使用了多达3万亿个不同文本和代码的tokens，涵盖了广泛的领域。这些模型在众多下游任务中始终表现出卓越的性能，即使与更大的同类模型相比也是如此。
QWEN-CHAT 模型在与任务执行、聊天、工具使用、代理、安全等相关的精选数据集上进行了仔细的微调。基准评估表明 SFT 模型可以实现卓越的性能。此外，我们还训练了模仿人类偏好的奖励模型，并将其应用于 RLHF 中的聊天模型，该模型可以产生人类偏好的响应。通过对具有挑战性的测试进行人工评估，我们发现使用 RLHF 训练的 QWEN-CHAT 模型具有很强的竞争力，但在我们的基准测试中仍然落后于 GPT-4。
此外，我们还推出了名为 CODE-QWEN 的专用模型，其中包括 CODEQWEN-7B 和 CODE-QWEN-14B，以及它们的聊天模型 CODE-QWEN-14BCHAT 和 CODE-QWEN-7B-CHAT。具体来说，CODE-QWEN 已经在广泛的代码数据集上进行了预训练，并进一步进行了微调，以处理与代码生成、调试和解释相关的对话。在 HumanEval (Chen et al., 2021b)、MBPP (Austin et al., 2021) 和 HumanEvalPack (Muennighoff et al., 2023) 等基准数据集上进行的实验结果证明了 CODE 的高水平熟练程度 -QWEN 用于代码理解和生成。
本研究还引入了专为解决数学问题而设计的MATH-QWEN-CHAT。我们的结果表明，MATH-QWEN-7B-CHAT 和 MATHQWEN-14B-CHAT 的性能均优于同等大小的开源模型，并且在 GSM8K 等数学相关基准数据集上接近 GPT-3.5（Cobbe 等人，2017）。，2021）和数学（Hendrycks 等人，2021）。
此外，我们还开源了QWEN-VL和QWEN-VL-CHAT，它们具有理解视觉和语言指令的多功能能力。这些模型在各种评估基准上均优于当前开源视觉语言模型，并支持中文和英文的文本识别和视觉基础。此外，这些模型可以实现多图像对话和讲故事。更多细节可以在 Bai 等人中找到。（2023）。

现在，我们正式开源了14B参数和7B参数的基础预训练模型QWEN和对齐的聊天模型QWEN-CHAT。此版本旨在以开发人员或应用程序友好的规模提供更全面、更强大的法学硕士。本报告的结构如下：

第 2 部分描述了我们的预训练方法和 QWEN 的结果。
第 3 部分介绍了我们的对齐方法并报告了自动评估和人工评估的结果。此外，本节详细介绍了我们在构建能够使用工具、代码解释器和代理的聊天模型方面所做的努力。
在第 4 节和第 5 节中，我们深入研究了编码和数学的专门模型及其性能。
第 6 节概述了相关工作
第 7 节总结了本文并指出了我们未来的工作。

2 预训练pre-training

预训练阶段涉及学习大量数据，以全面了解世界及其各种复杂性。这不仅包括基本的语言能力，还包括算术、编码和逻辑推理等高级技能。在本节中，我们介绍数据、模型设计和缩放以及基准数据集的综合评估结果。

2.1 数据 Data

数据的大小已被证明是开发一个强大的大型语言模型的关键因素，正如以前的研究中强调的那样(Hoffmann等人，2022；Touvron等人，2023年b)。为了创建有效的预训练数据集，确保数据多样化并涵盖广泛的类型、领域和任务至关重要。我们的数据集旨在满足这些要求，包括公共网络文档、百科全书、书籍、代码等。此外，我们的数据集是多语言的，有很大一部分数据是英文和中文的。

图 2：GPT-4、GPT-3.5、之前的 13B SOTA 以及 QWEN-14B 的性能。我们在涵盖语言理解、知识、推理等多个领域的 12 个数据集上展示了结果。QWEN 显着优于之前类似模型大小的 SOTA，但仍然落后于 GPT-3.5 和 GPT-4。

为了确保预训练数据的质量，我们开发了全面的数据预处理程序。

对于公共网络数据，我们从 HTML 中提取文本并使用语言识别工具来确定语言。
为了增加数据的多样性，我们采用了重复数据删除技术，包括归一化后的精确匹配重复数据删除以及使用 MinHash 和 LSH 算法的模糊重复数据删除。
为了过滤掉低质量的数据，我们结合使用基于规则和基于机器学习的方法。具体来说，我们使用多种模型对内容进行评分，包括语言模型、文本质量评分模型以及识别潜在攻击性或不当内容的模型。
我们还从各种来源手动采样文本并进行审查以确保其质量。为了进一步提高数据质量，我们有选择地对某些来源的数据进行上采样，以确保我们的模型接受各种高质量内容的训练。最后，我们构建了高达 3 万亿token的数据集。

2.2 标记化TOKENIZATION

词汇的设计显着影响训练效率和下游任务性能。在本研究中，我们遵循 GPT-3.5 和 GPT-4，利用字节对编码 (BPE) 作为我们的标记化方法。我们从开源快速 BPE 分词器 tiktoken（Jain，2022）开始，并选择词汇 cl100k 基础作为我们的起点。为了提高我们的模型在多语言下游任务（特别是中文）上的性能，我们用常用的汉字和单词以及其他语言的单词和单词来扩充词汇量。 此外，遵循 Touvron 等人。 (2023a;b)，我们已将数字拆分为个位数。 最终词汇量约为152K。

图3：不同模型的编码压缩率。我们随机选取每种语言的 100 万个文档语料来测试和比较不同模型的编码压缩率（以支持 100 种语言的 XLM-R (Conneau et al., 2019)，作为基值 1，图中未显示）数字）。可以看到，QWEN在保证中文、英文、代码高效解码的同时，对于其他多种语言（如th、he、ar、ko、vi、ja、tr、id、pl、 ru、nl、pt、it、de、es、fr等），使模型在这些语言下具有强大的可扩展性以及较高的训练和推理效率。

QWEN 分词器在压缩方面的性能如图 3 所示。在此比较中，我们针对其他几个分词器评估了 QWEN，包括 XLM-R（Conneau 等人，2019）、LLaMA Touvron 等人（2023a）、百川公司（2023a）和 InternLM InternLM 团队（2023）。我们的研究结果表明，QWEN 在大多数语言中都比竞争对手实现了更高的压缩效率。 这意味着服务成本可以显着降低，因为 QWEN 的代币数量比竞争对手少，可以传达更多信息。此外，我们还进行了初步实验，以确保扩展 QWEN 的词汇量不会对预训练模型的下游性能产生负面影响。尽管词汇量增加，我们的实验表明 QWEN 在下游评估中保持了其性能水平。

2.3 架构 ARCHITECTURE

QWEN 是使用 Transformer 架构的修改版本设计的。具体来说，我们采用了最近开源的大型语言模型训练方法LLaMA（Touvron et al., 2023a），它被广泛认为是顶级的开源LLM。我们对架构的修改包括：

嵌入和输出投影Embedding and output projection 根据初步的实验结果，我们选择了非绑定嵌入方法，而不是绑定输入嵌入和输出投影的权重。做出这个决定是为了以内存成本为代价获得更好的性能。

位置嵌入Positional embedding 我们选择 RoPE（旋转位置嵌入）（Su et al., 2021）作为将位置信息纳入模型的首选选项。RoPE 已被广泛采用，并在当代大型语言模型中取得了成功，特别是 PaLM（Chowdhery 等人，2022；Anil 等人，2023）和 LLaMA（Touvron 等人，2023a；b）。特别是，我们选择使用 FP32 精度作为逆频率矩阵（the inverse frequency matrix），而不是 BF16 或 FP16，以便优先考虑模型性能并实现更高的精度。

偏置bias 对于大多数层，我们按照 Chowdhery 等人的方法消除偏差（2022），但我们在 QKV 注意力层中添加了偏差，以增强模型的外推能力（Su，2023b）。

预范数和RMS范数Pre-Norm & RMSNorm 在现代 Transformer 模型中，pre-normalization预归一化是最广泛使用的方法，与后归一化post-normalization相比，它已被证明可以提高训练稳定性。最近的研究提出了提高训练稳定性的替代方法，我们计划在模型的未来版本中探索这些方法。此外，我们用 RMSNorm (Jiang et al., 2023) 取代了 (Ba et al., 2016) 中描述的传统层归一化技术。这一变化带来了同等的性能，同时也提高了效率。

激活函数Activation function 我们选择 SwiGLU (Shazeer, 2020) 作为我们的激活函数，它是 Swish (Ramachandran et al., 2017) 和门控线性单元 (Dauphin et al., 2017) 的组合。我们的初步实验表明，基于 GLU 的激活函数通常优于其他基线选项，例如 GeLU（Hendrycks & Gimpel，2016）。正如之前研究中的常见做法，我们将前馈网络 (FFN) 的维度从隐藏大小的4倍减少到隐藏大小的8 /3 倍。

2.4 训练training

为了训练 QWEN，我们遵循自回归语言建模的标准方法，如 Radford 等人所述（2018）。这涉及训练模型以根据先前标记提供的上下文来预测下一个标记。我们训练上下文长度为 2048 的模型。为了创建批量数据，我们对文档进行打乱和合并，然后将它们截断为指定的上下文长度。为了提高计算效率并减少内存使用，我们在注意力模块中采用了 Flash Attention（Dao 等人，2022）。我们采用标准优化器 AdamW (Kingma & Ba, 2014; Loshchilov & Hutter, 2017) 进行预训练优化。我们设置超参数 β1 = 0.9、β2 = 0.95 和 ε = 10−8。我们使用余弦学习率计划，为每个模型大小指定一个指定的峰值学习率。学习率衰减至最小学习率峰值学习率的 10%。 所有模型均采用 BFloat16 混合精度进行训练，以保证训练稳定性。

2.5 上下文长度扩展

Transformer 模型在注意力机制的上下文长度方面有很大的限制。随着上下文长度的增加，二次复杂度计算会导致计算和内存成本急剧增加。 在这项工作中，我们实现了简单的免训练技术，这些技术仅在推理过程中应用，以扩展模型的上下文长度。我们使用的关键技术之一是 NTK 感知插值（bloc97，2023）。与同等缩放 RoPE 每个维度的位置插值 (PI) (Chen et al., 2023a) 不同，NTK 感知插值调整 RoPE 的基础，以免训练的方式防止高频信息丢失。为了进一步提高性能，我们还实现了一个名为动态 NTK 感知插值的简单扩展，稍后将在 (Peng et al., 2023a) 中正式讨论。它按块动态改变规模，避免严重的性能下降。这些技术使我们能够有效地扩展 Transformer 模型的上下文长度，而不会影响其计算效率或准确性。

表 2：与开源基础模型相比，广泛使用的基准测试的总体性能。我们最大的 QWEN 模型拥有 140 亿个参数，在所有数据集上都优于之前的 13B SoTA 模型。

QWEN还包含两种注意力机制：LogN-Scaling（Chiang & Cholak，2022；Su，2023a）和窗口注意力（Beltagy et al.，2020）。 LogN-Scaling 通过一个取决于上下文长度与训练长度之比的因子重新调整查询和值的点积，确保注意力值的熵随着上下文长度的增长保持稳定。 窗口注意力将注意力限制在有限的上下文窗口中，防止模型关注太远的标记。 我们还观察到，我们模型的长上下文建模能力在不同层之间有所不同，与较高层相比，较低层对上下文长度扩展更加敏感。为了利用这一观察结果，我们为每一层分配不同的窗口大小，对较低层使用较短的窗口，对较高层使用较长的窗口。

2.6 实验结果

为了评估我们模型的零样本和少样本学习能力，我们使用一系列数据集进行了彻底的基准评估。我们将 QWEN 与最新的开源基础模型进行比较，包括 LLaMA (Touvron et al., 2023a)、LLAMA 2(Touvron et al., 2023b)、MPT (Mosaic ML, 2023)、Falcon (Almazrouei et al., 2023)、Baichuan2（Yang 等人，2023）、ChatGLM2（ChatGLM2 团队，2023）、InternLM（InternLM 团队，2023）、XVERSE（Inc.，2023b）和 StableBeluga2（Stability AI，2023）。我们的评估总共涵盖 7 个流行基准，分别是 MMLU (5-shot) (Hendrycks et al., 2020)、C-Eval (5-shot) (Huang et al., 2023)、GSM8K (8-shot) (Cobbe et al., 2021)、MATH (4-shot) (Hendrycks et al., 2021)、HumanEval (0-shot) (Chen et al., 2021)、MBPP (0-shot) (Austin et al., 2021) 和 BBH (Big Bench Hard) ）（3 次）（Suzgun 等人，2022）。

我们的目标是提供我们的模型在这些基准测试中的整体性能的全面总结。在本次评估中，我们重点关注没有对齐的基础语言模型，并从其官方结果和 OpenCompass（OpenCompass Team，2023）中收集基线的最佳分数。结果如表 2 所示。

我们的实验结果表明，三个 QWEN 模型在所有下游任务中都表现出卓越的性能。值得注意的是，即使是较大的模型，例如 LLaMA2-70B，在 3 项任务中也比 QWEN-14B 表现更好。QWEN-7B 的表现也非常出色，超越了 LLaMA213B，取得了与 Baichuan2-13B 相当的结果。值得注意的是，尽管参数数量相对较少，QWEN-1.8B 在某些任务上仍具有竞争性的性能，甚至在某些情况下优于较大的模型。研究结果凸显了 QWEN 模型（尤其是 QWEN-14B）令人印象深刻的功能，并表明较小的模型（例如 QWEN-1.8B）仍然可以在某些应用中实现强大的性能。

表 3：QWEN 使用各种技术进行长上下文推理的结果。我们的实验结果表明，随着上下文长度的增加，我们的关键技术的应用使模型能够始终实现低困惑度。这表明这些技术在增强模型理解和生成长文本的能力方面发挥着重要作用。

为了评估上下文长度扩展的有效性，表 3 展示了 arXiv3 上困惑度 (PPL) 的测试结果。这些结果表明，通过结合 NTK 感知插值、LogN-Scaling 和逐层窗口分配，我们可以在超过 8192 个 token 的情况下有效保持模型的性能。

3 对齐ALIGNMENT

人们发现，预训练的大型语言模型与人类行为不一致，使得它们在大多数情况下不适合充当人工智能助手。最近的研究表明，使用监督微调（SFT）和人类反馈强化学习（RLHF）等对齐技术可以显着提高语言模型进行自然对话的能力。在本节中，我们将深入研究如何使用 SFT 和 RLHF 训练 QWEN 模型的细节，并评估它们在基于聊天的辅助环境中的性能。

3.1 有监督的微调SUPERVISED FINETUNING

为了了解人类行为，第一步是进行 SFT，它对聊天类型数据（包括查询和响应）的预训练 LLM 进行微调。在接下来的章节中，我们将深入探讨数据构建和训练方法的细节。

3.1.1 数据

为了增强我们的监督微调数据集的能力，我们用多种风格注释了对话。虽然传统数据集（Wei 等人，2022a）包含大量以自然语言提示问题、说明和答案的数据，但我们的方法通过注释人类风格的对话而更进一步。这一做法，受到欧阳等人的启发（2022），旨在通过专注于不同任务的自然语言生成来提高模型的有用性。为了确保模型能够推广到广泛的场景，我们特别排除了提示模板中格式化的数据，这些数据可能会限制其功能。此外，我们通过注释与暴力、偏见和色情等安全问题相关的数据来优先考虑语言模型的安全性。除了数据质量之外，我们还观察到训练方法可以显着影响模型的最终性能。

为了实现这一目标，我们利用了 ChatML 风格的格式（OpenAI，2022），这是一种多功能元语言，能够描述元数据（例如角色）和回合内容。 这种格式使模型能够有效地区分各种类型的信息，包括系统设置、用户输入和辅助输出等。 通过利用这种方法，我们可以增强模型准确处理和分析复杂对话数据的能力。

3.1.2 训练

与预训练一致，我们也应用下一个标记预测作为 SFT 的训练任务。我们对系统和用户输入应用损失掩模。更多详细信息请参见 A.1.1 节。该模型的训练过程利用 AdamW 优化器，具有以下超参数：β1 设置为 0.9，β2 设置为 0.95，ε 设置为 10−8。序列长度限制为2048，批量大小为128。模型总共经历4000步，学习率在前1430步中逐渐增加，达到2×10−6的峰值。为了防止过度拟合，应用权重衰减，其值为 0.1，dropout 设置为 0.1，并以 1.0 为限制强制执行梯度裁剪。

3.2 根据人类反馈进行强化学习

虽然 SFT 已被证明是有效的，但我们承认它的泛化和创造力可能有限，并且容易过度拟合。为了解决这个问题，我们遵循 Ouyang 等人的方法，实施了人类反馈强化学习 (RLHF)，以进一步使 SFT 模型与人类偏好保持一致（2022）克里斯蒂安诺等人（2017）。该过程涉及训练奖励模型并使用近端策略优化（PPO）（Schulman et al., 2017）进行策略训练。

3.2.1 奖励模型

要创建成功的奖励模型，就像构建大型语言模型（LLM）一样，首先进行预训练然后进行微调至关重要。这种预训练过程也称为偏好模型预训练 (PMP)（Bai 等人，2022b），需要大量的比较数据集。该数据集由样本对组成，每个样本对包含单个查询的两个不同响应及其相应的偏好。同样，也对此类比较数据进行微调，但由于质量注释的存在，具有更高的质量。

在微调阶段，我们收集各种提示，并根据人类对 QWEN 模型响应的反馈来调整奖励模型。为了确保正确考虑用户提示的多样性和复杂性，我们创建了一个包含约 6600 个详细标签的分类系统，并实现了平衡采样算法，在通过奖励模型选择注释提示时同时考虑多样性和复杂性（Lu et al. 等，2023）。为了生成广泛的响应，我们使用了不同大小和采样策略的 QWEN 模型，因为不同的响应可以帮助减少注释难度并提高奖励模型的性能。然后，注释者按照标准注释指南对这些响应进行评估，并根据他们的分数形成比较对。

在创建奖励模型时，我们利用相同大小的预训练语言模型QWEN来启动该过程。值得一提的是，我们已经在原始的QWEN模型中加入了一个池层，以根据特定的结束标记提取句子的奖励。该过程的学习速率被设置为一个恒定值3×106，批次大小为64。另外，序列长度被设置为2048，并且训练过程持续单个时期。

我们采用测试数据集的准确性作为奖励模型的重要但非唯一的评估指标。在表 4 中，我们报告了 PMP 和奖励模型在不同人类偏好基准数据集上的测试成对准确性（Bai 等人，2022b；Stiennon 等人，2020；Ethayarajh 等人，2022；Lightman 等人，2023）。具体来说，QWEN Helpful-base 和 QWEN Helpful-online 是我们的专有数据集。QWEN Helpful-base 中的响应是从不带 RLHF 的 QWEN 生成的，而 QWEN Helpful-online 包括来自带 RLHF 的 QWEN 的响应。结果表明，PMP 模型对分布外数据表现出较高的泛化能力，奖励模型在我们的 QWEN 奖励数据集上表现出显着改进。

3.2.2 强化学习

我们的近端策略优化（PPO）过程涉及四个模型：策略模型、价值模型、参考模型和奖励模型。在开始 PPO 程序之前，我们暂停策略模型的更新，仅专注于更新价值模型 50 个步骤。这种方法保证了价值模型能够有效地适应不同的奖励模型。

在 PPO 操作期间，我们使用同时对每个查询采样两个响应的策略。根据我们的内部基准评估，这一策略已被证明更为有效。我们将 KL 散度系数设置为 0.04，并根据运行平均值对奖励进行归一化。策略和价值模型的学习率分别为 1 × 10−6 和 5 × 10−6。为了增强训练稳定性，我们使用剪辑值为 0.15 的值损失剪辑。为了进行推理，策略 top-p 设置为 0.9。我们的研究结果表明，虽然熵比 top-p 设置为 1.0 时稍低，但奖励增加更快，最终导致在类似条件下始终获得更高的评估奖励。

此外，我们还实施了预训练梯度来减轻对齐税。实证结果表明，通过这种特定的奖励模型，KL 惩罚足以抵消本质上不严格的代码或数学的基准中的对齐税，例如测试常识知识和阅读理解的基准。与 PPO 数据相比，必须使用大量的预训练数据，以确保预训练梯度的有效性。此外，我们的实证研究表明，该系数过大的值会极大地阻碍与奖励模型的一致性，最终损害最终的一致性，而过小的值只会对一致性税收减少产生边际效应。

3.3 对齐模型的自动和人工评估

为了展示我们的对齐模型的有效性，我们在完善的基准上与其他对齐模型进行了比较，包括 MMLU (Hendrycks et al., 2020)、C-Eval (Huang et al., 2020)、C-Eval (Huang et al., 2020)。，2023）、GSM8K（Cobbe 等人，2021）、HumanEval（Chen 等人，2021）和 BBH（Suzgun 等人，2022）。除了广泛使用的少样本设置之外，我们还在零样本设置中测试了对齐的模型，以演示模型遵循指令的情况。零样本设置中的提示由指令和问题组成，上下文中没有任何先前的示例。基线结果来自其官方报告和 OpenCompass（OpenCompass 团队，2023）。

表 5：在广泛使用的基准上对齐模型的性能。我们报告了模型的零样本和少样本性能。

表5中的结果证明了我们的对齐模型在理解人类指令和生成适当响应方面的有效性。在所有数据集上，QWEN-14B-Chat都优于除ChatGPT (OpenAI，2022)和LLAMA 2-CHAT-70B (Touvron等人，2023b)之外的所有其他数据集，包括MMLU (Hendrycks等人，2020)、C-Eval (Huang等人，2023)、GSM8K (Cobbe等人，2021)、HumanEval (Chen等人，2021)和(Suzgun等人，2022)。特别是QWEN在衡量生成代码质量的HumanEval中的表现，明显高于其他开源模型。

此外，QWEN 的性能始终优于类似规模的开源模型，例如 LLaMA2 (Touvron et al., 2023b)、ChatGLM2 (ChatGLM2 Team, 2023)、InternLM (InternLM Team, 2023) 和 Baichuan2 (Yang) 等人，2023）。这表明我们的对齐方法（涉及在人类对话的大型数据集上微调模型）已有效提高模型理解和生成类人语言的能力。

尽管如此，我们对传统基准评估准确衡量当今环境下使用对齐技术训练的聊天模型的性能和潜力的能力持保留态度。前面提到的结果提供了我们竞争地位的一些证据，但我们认为开发专门针对对齐模型的新评估方法至关重要。

我们相信人类评估至关重要，这就是为什么我们为此目的创建了一个精心策划的数据集。我们的过程涉及收集 300 条中文说明，涵盖广泛的主题，包括知识、语言理解、创意写作、编码和数学。为了评估不同模型的性能，我们选择了QWEN-CHAT-7B的SFT版本和QWEN-CHAT-14B的SFT和RLHF版本，并添加了两个强大的基线GPT-3.5和GPT-44进行比较。对于每条指令，我们要求三位注释者根据有用性、信息性、有效性和其他相关因素的总体得分对模型响应进行排名。我们的数据集和评估方法对不同领域中不同语言模型的能力提供了全面而严格的评估。

图 4：聊天模型的人工评估结果。我们将 Qwen-7B (SFT)、Qwen14B (SFT)、Qwen-14B (RLHF) 以及 GPT-4 与 GPT-3.5 进行比较。每个条形部分从下到上代表获胜、平局和失败的百分比。平均而言，RLHF 模型优于 SFT 模型。该数据集由 300 条中文指令组成。

图 4 说明了各种模型的胜率。对于每个模型，我们报告相对于 GPT-3.5 的胜利、平局和失败的百分比，每个条形从下到上的部分代表这些统计数据。实验结果清楚地表明，RLHF 模型显着优于 SFT 模型，这表明 RLHF 可以鼓励模型生成人类更喜欢的响应。就整体性能而言，我们发现 RLHF 模型显着优于 SFT 模型，落后于 GPT-4。这表明 RLHF 在符合人类偏好方面的有效性。为了更全面地了解模型的性能，我们在附录A.2.2中提供了一个案例研究，其中包含来自不同模型的示例。尽管如此，仍然很难准确捕捉我们的模型和专有模型之间的差距。因此，聊天模型需要更广泛和严格的评估。

3.4 工具使用、代码解释器和代理

表 6：QWEN 在中国内部基准测试中的表现，该基准评估其通过 ReAct 提示使用未见过的工具的能力。

QWEN 模型的设计用途广泛，具有卓越的能力，可以利用工具使用和规划方面的技能来协助（半）自动化日常任务。因此，他们可以充当代理或副驾驶来帮助简化各种任务。我们探索 QWEN 在以下领域的熟练程度：

通过ReAct 提示利用看不见的工具（Yao 等人，2022）（参见表6）。
使用Python 代码解释器增强数学推理、数据分析等（参见表7 和表8）。
充当代理，在与人类互动的同时访问 Hugging Face 广泛的多模式模型集合（参见表 9）。

表 7：QWEN 生成的可在 Code Interpreter 内部评估基准上执行的代码比例。该基准测试检查 QWEN 在数学问题解决、数据可视化和通用用途方面的编码能力。 CODE LLAMA 在可视化任务上表现不佳，因为它仅根据 CSV 文件名来幻觉不存在的列（参见图 5）。

表 8：Code Interpreter 内部评估基准的最终响应的正确性。 Visualization-Hard 任务涉及规划多个步骤，而 Visualization-Easy 任务则不需要。可视化-全部测量两种类型的任务。 CODE LLAMA 擅长执行 VisualizationEasy 任务，但在 Visualization-Hard 任务中表现不佳，因为它倾向于根据 CSV 文件的名称来幻觉不存在的列（参见图 5）。

表 9：QWEN-Chat 在 Hugging Face Agent 基准测试上的结果。

为了增强 QWEN 作为代理或副驾驶的能力，我们对 SFT 采用自我指导（Wang et al., 2023c）策略。 具体来说，我们利用 QWEN 的情境学习能力进行自学。通过提供一些示例，我们可以提示 QWEN 生成更相关的查询并生成遵循特定格式的输出，例如 ReAct (Yao et al., 2022)。然后，我们应用规则并让人类注释者过滤掉任何嘈杂的样本。之后，这些样本将被纳入 QWEN 的训练数据中，从而产生更可靠的自学更新版本的 QWEN。我们多次迭代这个过程，直到收集到大量具有卓越品质和广泛多样性的样本。因此，我们的最终收藏包含约 2000 个高质量样本。

在微调过程中，我们将这些高质量样本与所有其他通用 SFT 样本混合，而不是引入额外的训练阶段。通过这样做，我们能够保留与构建代理应用程序相关的基本通用功能。

通过 ReAct Prompting 使用工具我们创建并公开了一个基准，用于评估 QWEN 使用 ReAct Prompting 调用插件、工具、函数或 API 的能力（参见 Qwen 团队，阿里巴巴集团，2023b）。为了确保评估的公平性，我们从评估集中排除了 QWEN 训练集中包含的任何插件。该基准评估模型从最多五个候选者中选择正确插件的准确性，以及传递到插件的参数的合理性和误报的频率。在此评估中，当模型错误地调用插件来响应查询时，就会发生误报，尽管没有要求这样做。

表 6 中的结果表明，随着模型大小的增加，QWEN 在识别查询与可用工具的相关性方面始终能够实现更高的准确度。然而，该表还强调，超过某一点后，在选择适当的工具和提供相关参数方面，性能几乎没有改善。这表明当前的初步基准可能相对容易，并且可能需要在未来的迭代中进一步增强。值得注意的是，GPT-3.5 是一个例外，在这个特定的基准测试中表现出次优的性能。这可能是由于该基准测试主要关注中文，这可能与 GPT-3.5 的功能不太相符。此外，我们观察到 GPT-3.5 倾向于尝试使用至少一种工具，即使所提供的工具无法有效解决查询。

使用代码解释器进行数学推理和数据分析 Python 代码解释器被广泛认为是增强 LLM 代理能力的强大工具。这是值得研究的是 QWEN 是否可以充分利用该解释器的潜力来增强其在数学推理和数据分析等不同领域的性能。为了促进这一探索，我们开发并公开了专门为此目的定制的基准（参见 Qwen 团队，阿里巴巴集团，2023a）。

该基准测试涵盖三个主要任务类别：数学问题解决、数据可视化以及其他通用任务，例如文件后处理和网络爬行。在可视化任务中，我们区分两个难度级别。更简单的级别可以通过简单地编写和执行单个代码片段来实现，而不需要高级的规划技能。然而，更具挑战性的级别需要战略规划并按顺序执行多个代码片段。这是因为后面的代码必须根据前面代码的输出来编写。例如，代理可能需要使用一个代码片段检查 CSV 文件的结构，然后再继续编写和执行其他代码来创建绘图。

关于评估指标，我们同时考虑生成代码的可执行性和正确性。为了详细说明数学问题的正确性指标，我们通过验证代码执行结果和最终响应中是否存在真实数值答案来测量准确性。在数据可视化方面，我们利用 QWEN-VL（Bai 等人，2023）（一种强大的多模态语言模型）来评估准确性。 QWEN-VL能够回答与图像配对的文本问题，我们依靠它来确认代码生成的图像是否满足用户的请求。

关于可执行性和正确性的结果分别如表 7 和表 8 所示。很明显，CODE LLAMA 总体上优于 LLAMA 2（它的多面手版本），这并不奇怪，因为该基准测试特别需要编码技能。然而，值得注意的是，针对代码合成进行优化的专业模型不一定优于通用模型。这是因为该基准测试涵盖了编码之外的各种技能，例如将数学问题抽象为方程、理解语言指定的约束以及以 ReAct 等指定格式进行响应。值得注意的是，QWEN-7B-CHAT 和 QWEN-14B-CHAT 显着超越了所有其他类似规模的开源替代品，尽管它们是通用模型。

Hugging Face 代理 Hugging Face 提供了一个名为 Hugging Face 代理或 Transformers 代理（Hugging Face，2023）的框架，该框架为 LLM 代理提供了一组精选的多模式工具，包括语音识别和图像合成。该框架允许 LLM 代理与人类交互、解释自然语言命令并根据需要使用提供的工具。为了评估 QWEN 作为 Hugging Face 代理的有效性，我们利用了 Hugging Face 提供的评估基准。结果如表 9 所示。评估结果显示，与其他开源替代方案相比，QWEN 的性能相当好，仅略落后于专有的 GPT-4，这证明了 QWEN 的竞争能力。

4 CODE-QWEN

编码专用模型对特定领域数据的训练已被证明是非常有效的，特别是在代码预训练和微调的情况下。通过代码数据训练强化的语言模型可以作为编码、调试和解释等任务的宝贵工具。在这项工作中，我们使用预训练和对齐技术开发了一系列通用模型。在此基础上，我们利用 QWEN 的基本语言模型创建了特定领域的编码模型，包括持续预训练模型 CODE-QWEN 和监督微调模型 CODE-QWEN-CHAT。两个模型都有 140 亿和 70 亿参数版本。

4.1 代码预训练

我们认为，仅仅依靠代码数据进行预训练可能会导致多功能助手功能的严重丧失。与之前仅专注于代码数据预训练的方法不同（Li et al., 2022; 2023d），我们采用不同的方法（Rozi` ere et al., 2023），从在文本组合上训练的基本模型 QWEN开始和代码数据，然后继续对代码数据进行预训练。我们继续在总共约 900 亿个代币上对模型进行预训练。在预训练阶段，我们使用基础语言模型 QWEN 初始化模型。许多依赖专门模型进行编码的应用程序可能会遇到冗长的上下文场景，例如工具使用和代码解释，如第 3.4 节中所述。为了解决这个问题，我们使用高达 8192 的上下文长度来训练我们的模型。与第 2.4 节中的基本模型训练类似，我们在注意力模块中采用 Flash Attention（Dao 等人，2022），并采用标准优化器 AdamW（ Kingma & Ba, 2014; Loshchilov & Hutter, 2017)，设置 β1 = 0.9，β2 = 0.95，ε = 10−8。我们将 CODE-QWEN-14B 的学习率设置为 6.0 × 10−5，将 CODE-QWEN-7B 的学习率设置为 3.0 × 10−5，具有 3% 的预热迭代，并且没有学习率衰减。

4.2 代码监督微调

经过一系列实证实验，我们确定多阶段 SFT 策略与其他方法相比具有最佳性能。在监督微调阶段，由代码基础模型 CODE-QWEN 初始化的模型 CODE-QWEN-CHAT 通过 AdamW (Kingma & Ba, 2014; Loshchilov & Hutter, 2017) 优化器进行优化 (β1 = 0.9, β2 = 0.95，ε = 10−8），14B 和 7B 模型的学习率分别为 2.0 × 10−6 和 1.0 × 10−5。学习率随着余弦学习率计划（3% 预热步骤）增加到峰值，然后保持恒定。

4.3 评估

我们的 CODE-QWEN 模型已与专有和开源语言模型进行了比较，如表 10 和 11 所示。这些表展示了我们对 Humaneval 测试集的评估结果（Chen 等人，2021）、MBPP（Austin 等人，2021）以及多语言代码生成基准 HUMANEVALPACK（Muennighoff 等人，2023）。比较基于模型在这些基准数据集上的 pass@1 性能。表 10 和表 11 清楚地证明了这一比较的结果。我们的分析表明，专门的模型，特别是 CODE-QWEN 和 CODE-QWEN-CHAT，明显优于具有相似参数计数的先前基线，例如 OCTOGEEX（Muennighoff 等人， 2023）、InstructCodeT5+（Wang 等人，2023d）和 CodeGeeX2（Zheng 等人，2023）。事实上，这些模型的性能甚至可以与 Starcoder 等大型模型相媲美（Li et al., 2023d）。与一些超大规模的闭源模型相比，CODE-QWEN和CODEQWEN-CHAT在pass@1方面表现出明显的优势。然而，值得注意的是，这些模型总体上落后于最先进的方法，例如 GPT-4。尽管如此，随着模型规模和数据规模的不断扩大，我们相信这种差距在不久的将来会缩小。必须强调的是，前面提到的评估不足以全面掌握模型的优点和缺点。我们认为，有必要开发更严格的测试，使我们能够准确评估我们与 GPT-4 相比的相对性能。

5 MATH-QWEN

数学推理专用模型我们创建了一个名为 MATH-QWEN-CHAT 的数学专用模型系列，它构建在 QWEN 预训练语言模型之上。具体来说，我们开发了专门为在算术和数学方面表现出色而设计的辅助模型，并且与人类行为保持一致。我们发布了该模型系列的两个版本，MATH-QWEN-14B-CHAT 和 MATH-QWEN-7B-CHAT，分别拥有 140 亿和 70 亿个参数。

5.1 训练

我们在增强数学教学数据集上进行数学 SFT 进行数学推理，因此我们直接获得了聊天模型 MATH-QWEN-CHAT。由于数学 SFT 数据的平均长度较短，我们使用 1024 的序列长度来加快训练速度。数学SFT数据集中的大多数用户输入都是考试题，模型很容易预测输入格式，模型预测输入条件和可能是随机的数字是没有意义的。因此，我们屏蔽系统和用户的输入，以避免对它们进行损失计算，并发现在我们的初步实验中屏蔽它们可以加速收敛。对于优化，我们使用 AdamW 优化器，其超参数与 SFT 相同，只是我们使用 2 × 10−5 的峰值学习率和 50 000 的训练步长。

表 10：HumanEval 和 MBPP 上的 pass@1 (%) 结果。大多数分数取自 StarCoder (Li et al., 2023d)、CodeT5+ (Wang et al., 2023d)、WizardCoder (Luo et al., 2023b) 和 CODE LLAMA (Rozi` ere et al., 2023) 的论文。

表 11：HUMANEVALPACK（合成）基准测试中的零样本通过@1 (%) 性能。基线结果部分来自 OCTOPACK（Muennighoff 等人，2023）。

表 12：数学推理模型的结果。我们使用贪婪解码报告了所有基准测试中 QWEN 的准确性。对于数学，我们报告了 QWEN 在 Lightman 等人的测试集上的表现。（2023）。

5.2 评估

我们在 GSM8K（小学数学）（Cobbe et al., 2021）、MATH（挑战性竞赛数学问题）（Hendrycks et al., 2021）、Math401（算术能力）（Yuan et al., 2021）测试集上评估模型 ., 2023b) 和Math23K（中国小学数学）（Wang et al., 2017）。我们将 MATH-QWEN-CHAT 与专有模型 ChatGPT 和 Minerva (Lewkowycz et al., 2022) 以及开源数学专用模型 RFT (Yuan et al., 2023a)、WizardMath (Luo et al., 2023a) 和 GAIRMath-Abel（Chern 等人，2023a）见表 12。与开源模型和类似规模的 QWEN-CHAT 模型相比，MATH-QWEN-CHAT 模型显示出更好的数学推理和算术能力。与专有模型相比，MATH-QWEN-7B-CHAT 在 MATH 方面优于 Minerva-8B。 MATH-QWEN-14B-CHAT 在 GSM8K 和 MATH 方面追赶 Minerva-62B 和 GPT-3.5，并在算术能力和中文数学问题上提供更好的表现。

6 相关工作

6.1 大型语言模型

LLM 的兴奋始于 Transformer 架构的引入（Vaswani 等人，2017），然后 Radford 等人将其应用于预训练大规模数据（2018）；德夫林等人（2018）；刘等人（2019）。 这些努力在迁移学习方面取得了巨大成功，模型大小从 1 亿个参数增长到超过 100 亿个参数（Raffel 等人，2020 年；Shoeybi 等人，2019 年）。

2020 年，GPT-3 的发布，这是一种比 T5 大 10 倍的大规模语言模型，通过即时工程和上下文学习以及后来的链式学习，展示了少样本和零样本学习的巨大潜力。思维提示（Wei et al., 2022c）。这一成功引发了许多研究探索进一步扩展这些模型的可能性（Scao 等人，2022 年；Zhang 等人，2022 年；Du 等人，2021 年；Zeng 等人，2022 年；Lepikhin 等人，2022 年）。，2020；Du 等人，2022；Rae 等人，2022；Chowdhery 等人，2022； 2022）。因此，社区开始将这些大型语言模型视为下游模型的重要基础（Bommasani 等人，2021）。

ChatGPT（OpenAI，2022）的诞生和随后推出的 GPT-4（OpenAI，2023）标志着人工智能领域的两个历史性时刻，证明大型语言模型（LLM）可以作为能够进行沟通的有效 AI 助手与人类。这些事件激发了研究人员和开发人员对构建符合人类价值观的语言模型的兴趣，甚至有可能实现通用人工智能 (AGI)（Anil 等人，2023；Anthropic，2023a；b）。

这一领域的一个显着发展是开源 LLM 的出现，特别是 LLaMA (Touvron et al., 2023a) 和 LLAMA 2(Touvron et al., 2023b)，它们已被公认为最强大的开源语言模型曾经创造过。这导致开源社区的活动激增（Wolf 等人，2019 年），在这一进展的基础上协作开发了一系列大型语言模型（Mosaic ML，2023 年；Almazrouei 等人，2023 年）；ChatGLM2 团队，2023；Yang 等人，2023；

6.2 一致性

法学硕士的一致性令人惊讶的有效性给社区留下了深刻的印象。此前，没有对齐的法学硕士经常会遇到重复生成、幻觉和偏离人类偏好等问题。自2021年以来，研究人员一直在努力开发方法来提高LLM在下游任务中的表现（Wei等人，2022a；Sanh等人，2021；Longpre等人，2023；Chung等人，2022；Muennighoff 等人，2022）。此外，研究人员一直在积极探索使法学硕士与人类指令保持一致的方法（Ouyang et al., 2022; Askel et al., 2021; Bai et al., 2022b;c）。比对研究的一大挑战是收集数据的困难。虽然 OpenAI 已利用其平台来收集人类提示或指令，但其他人收集此类数据是不可行的。

然而，这方面已经取得了一些进展，例如 Wang 等人提出的自指导方法（2023c）。这项创新工作为比对研究中的数据收集问题提供了潜在的解决方案。结果，开源聊天数据激增，包括 Alpaca (Taori et al., 2023)、MOSS (Sun et al., 2023a)、Dolly (Conover et al., 2023)、Evol-Instruct (Xu et al., 2023b) 等 (Sun et al., 2023b; Xu et al., 2023a;c; Chen et al., 2023c; Ding et al., 2023; Ji et al., 2023; Yang ，2023）。同样，开源聊天模型也有所增加，例如 Alpaca（Taori 等人，2023）、Vicuna（Chiang 等人，2023）、Guanaco（Dettmers 等人，2023）、MOSS（Sun 等人） al., 2023a)、WizardLM (Xu et al., 2023b) 和其他 (Xu et al., 2023c; Chen et al., 2023c; Ding et al., 2023; Wang et al., 2023b)。

为了训练有效的聊天模型，可用的解决方案主要基于 SFT 和 RLHF（Ouyang et al., 2022）。 虽然 SFT 与预训练类似，但它侧重于使用上述数据执行指令。然而，对于许多开发人员来说，有限的内存容量是进一步研究 SFT 的主要障碍。因此，参数高效的调优方法，例如 LoRA (Hu et al., 2021) 和 Q-LoRA (Dettmers et al., 2023)，在社区中得到了普及。 LoRA 仅调整低秩适配器，而 Q-LoRA 基于 LoRA 构建，并利用 4 位量化 LLM 和分页注意力（Dettmers 等人，2022 年；Frantar 等人，2022 年；Kwon 等人，2023 年）。就RLHF而言，最近的方法如PPO（Schulman等人，2017；Touvron等人，2023b）已被采用，但也有旨在解决优化复杂性的替代技术，如RRHF（Yuan等人） ., 2023c)、DPO（Rafailov 等人，2023）和 PRO（Song 等人，2023）。尽管关于 RLHF 有效性的争论仍在继续，但仍需要更多证据来了解它如何增强法学硕士的智力以及它可能存在哪些潜在缺点。

6.3 工具使用和代理

LLM 的规划功能允许通过上下文学习调用工具，例如 API 或代理功能，如 Schick 等人所演示的（2023）。姚等人 (2022) 引入了 ReAct，这是一种生成格式，使模型能够生成关于使用哪个工具的想法、接受来自 API 观察的输入并生成响应。GPT-3.5 和 GPT-4 在经过几次镜头提示后，就表现出了一致且令人印象深刻的性能。除了工具使用之外，法学硕士还可以利用知识库（Hu et al., 2023；Zhong et al., 2023b）或搜索引擎（Nakano et al., 2021；Liu et al., 2023b）等外部记忆源来生成更准确、信息更丰富的答案。这导致了像LangChain（LangChain, Inc., 2023）这样的框架的流行。针对工具使用的 LLM 的研究也激发了人们对构建具有 LLM 功能的代理的兴趣，例如可以调用不同 AI 模型的代理（Shen 等人，2023；Li 等人，2023a）、体现终身学习或多模式代理（ Wang et al., 2023a; Driess et al., 2023)，以及多个主体相互作用，甚至构建一个微社会(Chen et al., 2023b; Li et al., 2023b; Xu et al., 2023d) 洪等人，2023）

6.4 用于编码的法学硕士

先前的研究表明，法学硕士在代码理解和生成方面具有卓越的能力，特别是那些具有大量参数的代码（Chowdhery 等人，2022；Anil 等人，2023；Rae 等人，2021；Hoffmann 等人）等，2022）。此外，一些LLM已经对编码相关数据进行了预训练、持续预训练或微调，这使得与通用LLM相比性能显着提高。这些模型包括 Codex Chen 等人。 (2021)、AlphaCode (Li 等人，2022)、SantaCoder (Allal 等人，2023)、Starcoder-Base (Li 等人，2023d)、InCoder (Fried 等人，2022)、CodeT5 (Wang 等人) al., 2021)、CodeGeeX (Zheng et al., 2023) 和 CODE LLAMA (Rozi` ere et al., 2023)。除了这些模型之外，最近的研究还集中在开发专门的编码对齐技术，例如 Code Llama-Instruct (Rozi` ere et al., 2023) 和 StarCoder (Li et al., 2023d)。这些模型可以帮助开发人员完成各种与代码相关的任务，包括代码生成（Chen et al., 2021; Austin et al., 2021）、代码完成（Zhang et al., 2023a）、代码翻译（Szafraniec et al., 2021）、代码翻译（Szafraniec et al., 2021） 2023）、错误修复（Muennighoff et al., 2023）、代码细化（Liu et al., 2023c）和代码问答（Liu & Wan, 2021）。简而言之，LLM通过为开发人员提供用于代码理解、生成和相关任务的强大工具，有可能彻底改变编码领域。

6.5 数学法学硕士

具有一定模型规模的法学硕士被发现具有进行数学推理的能力（Wei 等，2022b；Suzgun 等，2022）。为了鼓励法学硕士在数学相关任务上取得更好的表现，研究人员采用了思想链提示（Wei et al., 2022c）和草稿本（Nye et al., 2021）等技术，这些技术已显示出良好的前景结果。此外，自我一致性（Wang et al., 2022）和从最少到最多的提示（Zhou et al., 2022）进一步提高了这些模型在这些任务上的性能。然而，即时工程是一个耗时的过程，需要大量的试验和错误，法学硕士仍然很难在解决数学问题时始终表现良好或取得令人满意的结果。此外，简单地缩放数据和模型大小并不是提高模型数学推理能力的有效方法。相反，对数学相关语料库的预训练已被证明可以持续增强这些能力（Hendrycks 等人，2021；Lewkowycz 等人，2022；Taylor 等人，2022；Lightman 等人，2023）。此外，对数学相关的指令跟踪数据集进行微调（Si et al., 2023；Yuan et al., 2023a；Luo et al., 2023a；Yue et al., 2023；Chern et al., 2023a；Yu et al., 2023），也比数学特定的预训练更有效且更具成本效益。尽管在准确性方面存在局限性，法学硕士仍然具有帮助用户解决实际数学问题的巨大潜力。该领域还有广阔的进一步发展空间。

7 结论

在本报告中，我们介绍了 QWEN 系列大型语言模型，展示了自然语言处理的最新进展。 这些模型具有 14B、7B 和 1.8B 参数，已针对包括数万亿代币在内的海量数据进行预训练，并使用 SFT 和 RLHF 等尖端技术进行微调。此外，QWEN 系列还包括用于编码和数学的专用模型，例如 CODE-QWEN、C ODE-QWEN-CHAT 和 MATH-QWENCHAT，这些模型经过特定领域数据的训练，在各自领域表现出色。我们的结果表明，QWEN 系列与现有开源模型具有竞争力，甚至在综合基准和人工评估方面与一些专有模型的性能相匹配。我们相信 QWEN 的开放访问将促进社区内的协作和创新，使研究人员和开发人员能够在我们的工作基础上继续发展，并突破语言模型的可能性界限。通过向公众提供这些模型，我们希望激发新的研究和应用，进一步推进该领域的发展，并有助于我们理解现实环境中引入的变量和技术。简而言之，QWEN 系列代表了我们大型语言模型开发的一个重要里程碑，我们很高兴看到它将如何用于推动未来几年的进步和创新。

Written on August 11, 2024