作者|凌敏、核子可乐
Databricks推出开源大模型DBRX3月27日,美国AI初创公司Databricks宣布,该公司MosaicResearch团队开发的通用大模型DBRX将开源。Databricks客户可以通过API使用DBRX,从零开始预训练自己的DBRX同类模型,或者使用其构建该模型的同款工具和技术在选定的检查点之上继续训练。
量化测试结果显示,DBRX性能已经超越,且完全能够与相比肩。其推理速度比达到LlaMa2-70B的2倍;而就总参数量和活动参数量而言,DBRX的大小约为Grok-1的40%。在被托管于MosaicAIModelServing上时,DBRX能够以高达150tokens/秒/用户的速度生成文本。同时,DBRX也是一套极其强大的编码模型,在编程方面甚至超越了CodeLlaMa-70B等专业模型。
在最终模型质量相同的情况下,训练混合专家的FLOP效率约为训练密集模型的2倍。从端到端角度出发,DBRX整体配方(包括预训练数据、模型架构和优化策略)完全能够与上一代MPT模型提供同等输出质量,但计算量却减少至约四分之一。
DBRX在语言理解(MMLU)、编程(HumanEval)和数学(GSM8K)方面优于原有开源模型。
DBRX是如何构建出来的?DBRX是一套基于Transformer的纯解码器大语言模型(LLM),使用下一token预测方式进行训练。它使用细粒度的混合专家(MoE)架构,共有132B参数,其中36B参数在任何输入上均处于活动状态。DBRX的预训练使用到12T大小的文本与代码数据tokens。
与Mixtral和Grok-1等其他开放混合专家模型相比,DBRX具有细粒度特性,意味着它使用到数量更多的小型专家模型。DBRX共含16个专家模型,在推理中选取输出质量最高的4个;而Mixtral和Grok-1则包含8个专家模型,每次推理时选择其中2个。这意味着DBRX的潜在专家组合相当于同类开放模型的65倍,这也在实践中切实提高了模型质量。DBRX使用旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意(GQA)机制,还用到了tiktokenrepo中提供的GPT-4token生成器。
DBRX在精心设计的12Ttoken数据与32k最大上下文长度条件下进行了预训练。Databricks估计这样的配置数据在训练质量上至少达到此前MPT系列模型预训练数据的2倍。这套新数据集使用全套Databricks工具开发而成,包括用于数据处理的ApacheSpark和Databricksnotebooks,用于数据管理与治理的UnityCatalog,以及用于实验跟踪的MLflow。Databricks还使用课程学习进行预训练,在训练期间改变数据组合,并发现这样能够显著提高模型质量。
据介绍,DBRX在通过3.2TbpsInfiniBand实现互连的3072张英伟达H100上训练而成。构建DBRX的主要步骤包括:预训练、后训练、评估、红队测试和精炼,全程历时三个月。除此之外,Databricks还持续开展长达几个月的数学、数据集研究与扩展实验。
为了构建DBRX,Databricks打造出一款未来客户也能用到的工具,使用UnityCatalog对训练数据进行管理与治理,同时采取收购而来的LilacAI资产探索这些数据,并使用ApacheSpark和Databricksnotebooks清洗并处理这些数据。
目前,DBRX已经被整合至Databricks的生成式AI支持产品当中,包括SQL等应用,且早期表现已经超过了,足以向GPT-4Trubo发起冲击。DBRX在RAG任务上同样力压以及其他各种开放模型。
训练效率与推理效率模型质量无法孤立存在,必然要与模型训练和使用效率联系起来。Databricks发现,训练混合专家模型能够显著提高训练过程的计算效率(详见下图。例如,在训练名为DBRXMoE-B(总参数23.5B,活动参数6.6B)这个较小版本时,在DatabricksLLMGauntlet上获得45.5%分数所需的FLOP次数仅为LlaMA2-13B训练工作量的1/1.7,且后者得分仅为43.8%。DBRXMoE-B的活动参数也仅为LlaMA2-13B的一半。
从整体上看,Databricks的端到端大模型预训练管线的计算效率在过去十个月间提高了近4倍。2023年5月5日,Databricks正式发布了MPT-7B,这是一套在1Ttokens上训练得到的7B参数模型,在DatabricksLLMGauntlet测试中得分为30.9%。DBRX家族的另一位成员名为DBRXMoE-A(总参数7.7B,活动参数2.2B),其DatabricksLLMGauntlet测试得分为30.5%,但训练FLOP量减少至1/3.7。这样的效率提升源自一系列改进举措,包括使用混合专家架构、对其他网络架构的调整、更好的优化策略、更好的令牌化方法,以及更高的预训练数据质量等等。
单独来看,预训练数据的优化对模型质量产生了重大影响。Databricks使用DBRX预训练数据在1Ttokens上训练得出一套7B模型(名为DBRXDense-A)。其在DatabricksLLMGauntlet测试中的得分为39.0%,远高于MPT-7B的30.9%。Databricks估计,新的预训练数据在质量方面至少相当于MPT-7B训练数据的2倍。换句话说,要达到相同的模型质量,现在只需要使用一半tokens。Databricks还在500Btokens上训练了DBRXDense-A来验证这一猜测,发现它在DatabricksLLMGauntlet上的表现同样优于MPT-7B,得分为32.1%。除了更高的数据质量外,提升训练效率的另一大重要因素很可能是GPT-4令牌化器。其中包含大量词汇,而且被普遍认为具有极高的令牌化效率。
推理效率和模型质量之间往往相互冲突:较大的模型往往拥有更高的输出质量,但较小的模型往往推理效率更高。使用混合专家架构则能够在模型质量与推理效率之间实现超越大部分密集模型的权衡效果。例如,DBRX的质量比LlaMA2-70B更高,而且由于活动参数量仅为LlaMA2-70B的一半左右,所以DBRX推理吞吐量最高可达其2倍(参见下图)。Mixtral则是混合专家模型实现帕累托式改进的另一明证:它的体量比DBRX更小,质量也相应较低,但推理吞吐量则更高。Databricks基础模型API的用户预计可在经过优化的8位精度模型服务平台上,获得每秒最高150toknes的DBRX推理性能。
使用英伟达TensorRT-LLM,在Databricks经过优化的服务基础设施上以16位精度实现的各种模型配置推理吞吐量。模型在整个节点上以张量并行方式运行。输入提示词包含约2000个tokens,生成的输出则包含256个tokens。每秒新增一个用户。
与其他领先大模型的基准测试比较在与其他领先的开放模型的基准测试比较结果中,DBRXInstruct在综合、编程和数学基准以及MMLU等方面均表现出色,在标准基准测试中甚至成功超越了所有话语或指令微调模型。
Databricks根据两项综合基准评估了DBRXInstruct与其他同类开放模型的差异,具体包括HuggingFaceOpenLLMLeaderboard(即ARC-Challenge、HellaSwag、MMLU、TruthfulQA、WinoGrande和GSM8k的平均值)以及DatabricksModelGauntlet(涵盖6大领域超30项任务的套件,具体包括世界知识、常识推理、语言理解、阅读理解、符号问题解决和编程)。
在参与评估的模型中,DBRXInstruct在两项综合基准上得分最高:HuggingFaceOpenLLMLeaderboard(得分74.5%,高于第二位MixtralInstruct的72.7%)和DatabricksGauntlet(66.8%,高于第二位MixtralInstruct的60.7%)。
DBRXInstruct在编程和数学方面尤其擅长。其得分高于Databricks在HumanEval上评估的其他开放模型(得分为70.1%,高于Grok-1的63.2%,MixtralInstruct的54.8%,以及LlaMa2-70B性能最高变体的32.2%),GSM8k测试同理(得分为66.9%,高于Grok-1的62.9%,MixtralInstruct的61.1%,以及LlaMA2-70B性能最高变体的54.1%)。DBRX性能全面优于在基准测试中表现第二好的Grok-1,且后者的参数量达到DBRX的2.4倍。在HumanEval测试中,DBRXInstruct甚至超越了专为编程而构建的模型CodeLlaMA-70BInstruct,而前者只是针对通用用途而设计(得分为70.1%,高于Meta在博文中公布的67.8%HumanEval得分)。
此外,DBRXInstruct的得分高于Databricks在MMLU测试上测量的所有其他模型,达到73.7%。
在与其他领先的封闭模型的基准测试比较结果中,DBRXInstruct几乎全部超越,且最差得分也与相当。DBRXInstruct在通过MMLU衡量的常识知识(73.7%对70.0%)以及由HellaSwag(89.0%对85.5%)和WinoGrande(81.8%对81.6%)衡量的常识推理方面,均优于。而从HumanEval(70.1%对48.1%)和GSM8k(72.8%对47.1%)的得分来看,DBRXInstruct尤其擅长编程和数据推导。
DBRXInstruct的成绩几乎与和MistralMedium相当。DBRXInstruct在InflectionCorrectedMTBench、MMLU、HellaSwag和HumanEval上的得分高于,而在GSM8k上的得分更强。DBRXInstruct与MistralMedium在HellaSwag测试中得分相似,后者在Winogrande和MMLU上更强,而DBRXInstruct在HumanEval、GSM8k和InflectionCorrectedMTBench上更强。
GPT-5、GPT-6们即将向最强大模型发出挑战当前,大模型训练已经进入到了白热化阶段,最强开源大模型称号几经易主,暂时落在了DBRX头上。开源大模型在卷,封闭大模型也在卷。近日有消息显示,OpenAI准备在未来几个月内发布更加强大的AI模型GPT-5。与此同时,近日一条关于GPT-6的消息被传的沸沸扬扬。
今年二月,Altman在迪拜举行的世界政府峰会上谈到了GPT-5。他表示ChatGPT的这个最新版本将拥有超越前代的智能水平。Altman解释称,“其中的意义将超越话语描述,因为这些模型之所以如此神奇,就在于它们有着强大的通用能力。所以只要它们能更聪明一点,那在所有用例上也都将更进一步。”Altman在接受《》采访时强调,GPT-5需要更多数据进行训练,这也暗示其智能水平的提升。他表示,项目计划使用互联网上的公开数据集以及来自各组织的大规模专有数据集进行训练。后者将包含各种格式的长篇文章或对话记录。
早在去年秋季至少两个不同场合上,OpenAI掌门人SamAltman就曾,亲自证明公司正在开发GPT-5。据两位与会人士透露,第一次是在去年9月他曾供职的风险投资公司YCombinator的员工聚会演讲当中。当时Altman明确表示,GPT-5及其继任者GPT-6已经“只是时间问题”,而且都比前代版本更加强大。
去年11月,Altman又公开承认了GPT-5的存在。他在接受英国《》采访时称OpenAI正在开发GPT-5,但没有透露具体发布日期。
最近,一篇报道称这位OpenAI掌门人又提出了一项大胆的计划,决定采购训练大规模AI模型所需要的海量GPU设备。据《》报道,为了克服阻碍技术创新的GPU供应短缺问题,Altman希望全球投资者、政府和电网机构能够帮助其筹集最高7万亿美元资金,借此扩大芯片制造产能。
与此同时,有关GPT-6的消息也在近日被广为报道。
3月26日,AI初创公司OpenPipe联合创始人、CEOKyleCorbitt在X上透露,自己最近与一位负责GPT-6训练集群项目的微软工程师谈过,后者抱怨称,在跨区域GPU之间部署infiniband级别链接,实在是一件痛苦的事。Corbitt问到为何不将训练集群集中在同一区域,这位微软工程师回答,“我们已经尝试过那么做了,但是如果在一个州放置超过10万片H100GPU,电网就会崩溃。”
此外,一张OpenAI内部时间线的图片也在近日疯传。图中显示,OpenAI早在2022年8月-10月就开始了GPT-5的训练,在去年9月开始了GPT-6的测试。虽然OpenAI没有给出明确的发布日期,但结合各类爆料来看,GPT-5、GPT-6已经在路上了,即将向最强大模型发起冲击。
3个月砸1000万美元肝出“最强”大模型?黑马Databricks:我们完虐Grok、Llama,还更开放_生成式AI_凌敏_InfoQ精选文章
版权所有©Copyright © 2022-2030 汉缘网网站地图