热点资讯

你的位置:开云提款靠谱欢迎您✅ 官方入口 > 新闻 > 开云体育模子在推理时只可一个字一个字的生成-开云提款靠谱欢迎您✅ 官方入口

开云体育模子在推理时只可一个字一个字的生成-开云提款靠谱欢迎您✅ 官方入口


发布日期:2026-04-11 15:22    点击次数:85


开云体育模子在推理时只可一个字一个字的生成-开云提款靠谱欢迎您✅ 官方入口

K图 BK0923_0

  据豆包大模子团队音问,字节朝上豆包大模子Foundation团队近期提议UltraMem,一种相通将辩论和参数解耦的寥落模子架构,在保证模子遵循的前提下惩处了推理的访存问题。据先容,该架构有用惩处了MoE推理时高额的访存问题,推理速率较MoE架构进步2-6倍,推理资本最高可裁汰83%。

  跟着模子鸿沟的扩大,推理资本和访存遵循已成为收尾大模子鸿沟利用的要道瓶颈。近期,字节朝上豆包大模子团队提议了全新的寥落模子架构 UltraMem,该架构有用惩处了 MoE 推理时高额的访存问题,推理速率较 MoE 架构进步 2-6 倍,推理资本最高可裁汰 83%。该接洽还揭示了新架构的 Scaling Law,解说其不仅具备优异的 Scaling 特点,更在性能上超越了 MoE。

  实验收尾标明,磨砺鸿沟达 2000 万 value 的 UltraMem 模子,在同等辩论资源下,可同期达成业界最先的推理速率和模子性能,为构建数十亿鸿沟 value 或 expert 开发了新旅途。

  在 Transformer 架构下,模子的性能与其参数数目和辩论复杂度呈对数磋商。跟着 LLM 鸿沟不断增大,推理资本会急剧加多,速率变慢。

  尽管 MoE 架构依然奏效将辩论和参数解耦,但在推理时,较小的 batch size 就会激活一谈民众,导致访存急剧飞腾,进而使推理蔓延大幅加多。

  为此,字节朝上豆包大模子 Foundation 团队提议 UltraMem,一种相通将辩论和参数解耦的寥落模子架构,在保证模子遵循的前提下惩处了推理的访存问题。

  实验收尾标明,在参数和激活要求疏导的情况下,UltraMem 在模子遵循上超越了 MoE,并将推理速率进步了 2-6 倍。此外,在常见 batch size 鸿沟下,UltraMem 的访存资本果真与同辩论量的 Dense 模子十分。

  当今,该论文已被 ICLR 2025 采选。

  Ultra-Sparse Memory Network

  论文通顺:https://arxiv.org/abs/2411.12364

  1. MoE 与 PKM 的局限性

  LLM 的才略增长需要指数级增长的辩论资源,这在及时利用等资源有限的环境中颇具挑战。为了惩处辩论问题,先前的接洽者提议了 MoE 和 Product Key Memory(PKM)有运筹帷幄,但它们皆有各自的局限性。

  MoE 通过寥落激活 expert 解耦了辩论和参数,但在推理场景中,速率其实很慢。原因在于,模子在推理时只可一个字一个字的生成,因此 batch size 和 sequence length 皆很小,在这个场景下,MoE 的统统民众频繁会被一谈造访到,极其容易遭遇访存瓶颈,导致推理蔓延激增。

  PKM 最早提议 large memory layer,其中包含了数目广博的寥落参数 value,这里 value 其实即是一个向量,每个 token 会笔据一个「行路由」和一个「列路由」定位到得分最高的几个 value,激活这些 value 后作念 weighted sum pooling 算作 memory layer 的输出。这种圭臬因为每个 token 在推理时只是只激活少量数的 value,是以推理时不会遭遇访存瓶颈,但其遵循很差,且 scaling 才略差。

  2. UltraMem 兼顾访存和遵循

  UltraMem 参考了 PKM 的设想,但针对 PKM 的 3 个劣势赐与补充,以达成更高效的访存、更优质的 value 检索,同期,裁汰了显存和部署资本。

  ① 优化模子结构

  PKM 的设想中,memory layer 唯一 1 层,插在通盘 Transformer 的中间层,这对大鸿沟磨砺并不友好,况且如斯广博的寥落参数应该尽可能多的参与到每次的残差连合中。

  因此,接洽团队拆分出多个小 memory layer,以固定的阻隔散布在 transformer layer 中;况且加多了 skip-layer 的操作,即刻下层的 memory layer 的输出会加到后头某层 transformer layer 的输出。这使得模子不错并行地本质 memory layer 的访存操作和 transformer layer 的辩论。

  ② 优化 value 检索模样

  在检索时,唯一 score 最高的 m 个 value 会被激活,PKM 的 score 是通过「行 score」+「列 score」得到的。团队进一步探索了一种更复杂的乘法圭臬 Tucker Decomposed Query-Key Retrieval(TDQKR)。这一圭臬受启发于 Tucker Decomposition。具体来看,给定 values,shape 为(n,n,h),其中 h 为 hidden size,那么 values 的 score S_grid 不错作念如下剖判:

  其中

  是可学习的 tucker core。这个结构下,每个 value 的 score 由 r 个行 score 和 r 个列 score 的组合乘加获取,具备更高的复杂度。

  ③ 隐式扩张寥落参数

  更多的寥落参数频繁会带来更好的遵循,但过多的参数又会给显存和部署带来贫寒。为此,接洽团队提议了 Implicit Value Expansion (IVE)圭臬隐式地扩张寥落参数,并引入了 virtual memory 和 physical memory 的认识。

  以 4 倍扩张为例(如下图所示),virtual memory 的数目是 physical memory 的 4 倍,给定多对(score,index)后,最先按照 virtual memory address table 作念查表,4 个 virtual block 会查询澌灭个 physical memory table,之后各自作念 weighted sum pooling,并经由不同的线性层,终末再乞降输出。

  由于终末的 Linear 和取 value 之间莫得任何非线性操作,因此每个 Linear 皆不错和 physical memory table 作念交融,生成一个全新的 memory table,这个例子下,骨子上隐式扩张了 4 倍的 value 数目。

  3. 实验收尾:推理速率较 MoE 最高进步 6 倍

  ① 模子性能评估

  接洽团队在 151M、680M、1.6B 三个尺寸的激活参数上作念了泛泛实验,其中 MoE、PKM 和 UltraMem 的总寥落参数保握在激活参数的 12 倍。

  如下表所示,不错发现 UltraMem 在 680M、1.6B 上具有权贵的遵循上风。

  跟着寥落参数的加多,UltraMem 的遵循和推理速率若何变化?

  下图(b)展示了 UltraMem 的遵循变化,横轴为寥落参数和广宽参数的比值,每个姿首的线代表了一种寥落度。寥落度界说为 value 的数目 / 每个 token 激活的 value 数目。不雅察发现,握续加多寥落参数和 loss 的下落呈对数磋商;且寥落度越小,模子遵循越好;可是寥落度握续裁汰带来的收益在平稳鼓胀。

  下图(c)展示了 UltraMem 的推理期间变化,横轴为寥落参数和广宽参数的比值。不雅察发现,UltraMem 在握续加多寥落参数时推理期间果真不变,反不雅 MoE 有权贵增长的趋势。

  ② 消融实验

  接洽团队在 151M 激活、1.5B 总参数的寥落模子上进行了全面的消融实验。从最原始的 PKM 驱动,平稳加多一些 trick 和上文提议的结构改良,最终能拿到 C4 validation loss -0.092 的权贵收益,同期寥落参数和辩论量果真不变。

  要而论之,接洽团队提议的 UltraMem 具有极小的访存,因此,比拟 MoE 达成了最高达 6 倍的速率进步,推理资本最高可裁汰 83%。同期,在性能方面,跟着模子容量的加多,在疏导的参数和辩论量情况下,UltraMem 杰出了 MoE,标明其具有更强的扩张才略。这项责任为设置更高效和可扩张的讲话模子提供了一个有但愿的主张。

  4. 写在终末

  UltraMem 能有用地利用于对蔓延要求较高的推理场景(举例代码补全),幸免了访佛 MoE 的访存瓶颈。即使在通用场景下,UltraMem 相较于 MoE 皆展现出了权贵的速率上风,除非 batch size 上万的顶点场景。

  刻下,针对 UltraMem 的时代演进仍存在些许值得探索的主张开云体育,包括但不限于:若何高效优化寥落参数、若何进步寥落模子推理才略、若何更优地激活寥落参数等。这些时代主张或将成为后续接洽的攻击切入点。