我们向您介绍 Falcon3,这是一个由阿布扎比技术创新研究所(TII)开发的、参数小于 100 亿的纯解码器大型语言模型系列。 Falcon3 是前几个版本的自然演进,强调扩展模型的科学、数学和代码能力。

Falcon3 是前几个版本的自然演进,强调扩展模型的科学、数学和代码能力。

这次迭代包括五个基本模型:

  1. Falcon3-1B-Base
  2. Falcon3-3B-Base
  3. Falcon3-Mamba-7B-Base
  4. Falcon3-7B-Base
  5. Falcon3-10B-Base

在开发这些模型的过程中,我们采用了几项关键创新技术,旨在提高模型性能的同时降低训练成本:

  • 对基于转换器的模型进行一次预训练: 我们对 7B 模型进行了一次大规模预训练,使用了 1024 个 H100 GPU 芯片,利用了 14 万亿个标记,包括网络、代码、STEM 以及高质量和多语言数据。
  • 提升深度,改进推理: 基于最近对模型深度影响的研究,我们通过复制冗余层和继续使用 2 万亿个高质量数据进行预训练,将 7B 模型升级为 10B 参数模型。 这就产生了 Falcon3-10B-Base,它在 13B 参数以下的模型中实现了最先进的 zero-shot 和 few-shot 性能。
  • 通过知识提炼获得更好的微小模型: 为了提供紧凑高效的替代方案,我们利用剪枝和知识提炼技术开发了 Falcon3-1B-Base 和 Falcon3-3B-Base,使用了不到 100GT 的高质量数据,从而重新定义了预训练效率。
  • 纯 SSM:我们通过在额外 1.5 万亿字节的高质量数据上进行训练,进一步增强了 Falcon Mamba 7B,从而产生了 Falcon3-Mamba-7B-Base。 值得注意的是,更新后的模型在推理和数学能力方面有了显著提高。
  • 其他变体: Falcon3 系列的所有型号都有 Instruct、GGUF、GPTQ-Int4、GPTQ-Int8、AWQ 和 1.58 位等变体,为各种应用提供了灵活性。

主要亮点

Falcon3 通过在常见基准测试中的高性能表现,展示了大型语言模型在中小尺度范围内的极限:

  • Falcon3-1B-Base 超越了 SmolLM2-1.7B,与 gemma-2-2b 不相上下。
  • Falcon3-3B-Base 的性能超过了 Llama-3.1-8B 和 Minitron-4B-Base 等大型模型,凸显了通过知识提炼进行预训练的优势。
  • Falcon3-7B-Base 的性能在 9B 级以下的模型中名列前茅,与 Qwen2.5-7B 不相上下。
  • 所有基于变压器的 Falcon3 模型都与 Llama 架构兼容,可以更好地集成到人工智能生态系统中。
  • Falcon3-Mamba-7B 作为性能最佳的状态空间语言模型 (SSLM) 继续保持领先地位,在 7B 规模上可与基于变压器的 LLM 相媲美,甚至超过它们,同时还支持更长的 32K 上下文长度。 Falcon 3-Mamba-7B 与最初的 Falcon Mamba 7B 具有相同的架构,用户可以无缝集成 Falcon3-Mamba-7B,而无需额外的工作。
  • Falcon3-7B-Instruct 和 Falcon3-10B-Instruct 在公开排行榜上的表现优于 13B 级以下的所有指示机型。

增强的能力

我们利用内部评估管道(基于 lm-evaluation-harness)对模型进行了评估,并报告了原始分数。 我们的评估突出了 Falcon3 系列模型的主要优势领域,反映了我们对提高科学领域性能、推理和常识能力的重视:

  • 数学能力: Falcon3-10B-Base在MATH-Lvl5中获得22.9分,在GSM8K中获得83.0分,展示了他们在复杂的数学任务中的推理能力。
  • 编码能力: Falcon3-10B-Base 的 MBPP 分数为 73.8 分,而 Falcon3-10B-Instruct 的 Multipl-E 分数为 45.8 分,反映了它们在编程相关任务中的通用能力。
  • 扩展的上下文长度: Falcon3 系列中的模型支持多达 32k 个字元(1B 除外,支持多达 8k 个上下文),功能得到了改进,例如在 BFCL(Falcon3-10B-Instruct)中获得了 86.3 分。
  • 改进了推理能力: Falcon3-7B-Base 和 Falcon3-10B-Base 在 BBH 上的得分分别为 51.0 和 59.7,反映了推理能力的增强,其中 10B 模型的推理性能比 7B 模型有所提高。
  • 科学知识扩展: 在 MMLU 基准测试中,Falcon3-7B-Base 的成绩分别为 67.4/39.2(MMLU/MMLU-PRO),Falcon3-10B-Base 的成绩分别为 73.1/42.5(MMLU/MMLU-PRO),显示了专业知识的进步。

型号规格和基准测试结果

下表概述了 Falcon3 系列型号的详细规格。 Falcon3-7B-Base 架构的特点是磁头尺寸为 256,在使用 FlashAttention-3 时可产生高吞吐量,因为它针对这一尺寸进行了优化。 所有模型都使用 SwiGLU 激活函数,词汇量为 131K 标记(Mamba-7B 为 65K)。 Falcon3-7B-Base 是在最大的数据量上进行训练的,确保了概念和知识的全面覆盖,而其他变体所需的数据量要少得多。

在这里插入图片描述
下表重点介绍了 Falcon3-7B-Base 和 Falcon3-10B-Base 在关键基准测试中的表现,显示了它们在通用、数学、推理和常识理解等领域的竞争力。 请随时查看我们提供其他评估结果的模型卡(如 MT-Bench、Alpaca 等)。

在这里插入图片描述
如下表所示,指导模型与等效模型和小型模型相比,也表现出了极强的竞争力和超强的性能。

指令模型

Falcon3-1B-Instruct 和 Falcon3-3B-Instruct 在所有评估基准中都取得了强劲的性能。 具体来说,Falcon3-1B 在 IFEval (54.4)、MUSR (40.7) 和 SciQ (86.8) 中取得了具有竞争力的成绩,而 Falcon3-3B 则进一步提高了成绩,特别是在 MMLU-PRO (29.7) 和 MATH (19.9) 中,显示出明显的扩展效应。 虽然 Falcon 模型并没有在每个指标上都超越所有竞争模型,但相对于 Qwen 和 Llama,它们在推理和常识性理解方面都表现出色。 在我们的内部评估流程中

  • 我们使用 lm-evaluation harness。
  • 我们报告的是在不使用 fewshot_as_multiturn 的情况下应用聊天模板(与 Llama3.1 不同)得到的原始分数。
  • 我们在所有模型中使用相同的批量大小。

在这里插入图片描述
此外,Falcon3-7B 和 Falcon3-10B 在所有评估基准中均表现出强劲的性能。 Falcon3-7B 在推理(Arc Challenge:65.9;MUSR:46.4)和数学(GSM8K:79.1)方面取得了具有竞争力的成绩,而 Falcon3-10B 则有了进一步的提高,特别是在 GSM8K(83.1)和 IFEval(78)方面,这表明其具有明显的扩展优势。

在这里插入图片描述

结论

阿联酋技术创新研究所(TII)发布了 Falcon 3,这是一个开源人工智能模型系列,包含 30 个新的模型检查点,参数范围从 1B 到 10B。Falcon 3 包括基本模型和指令调整模型,以及量化版本,如 GPTQ-Int4、GPTQ-Int8、AWQ 和一个创新的 1.58 位高效变体。这些模型在一个包含 14 万亿个令牌的大型数据集上进行训练,支持 32K 上下文长度(1B 变体为 8K)。Falcon 3 的基准测试反映了它在各种评估数据集上的强劲性能,在 GSM8K 上的测试率为 83.1%,在 IFEval 上的测试率为 78%,在 MMLU 上的测试率为 71.6%。这些模型可在 Hugging Face 上获得,使开发人员和研究人员能够轻松地进行实验、微调和部署。Falcon 3 是一款适用于现实世界应用的实用、高性能 LLM,在基准、效率和多语言功能方面具有灵活性和强大的性能。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐