你的位置：湛江异型材设备价格_建仓机械 > 关于我们 >

巴音郭楞塑料管材生产线越TurboQuant：Together AI把2-bit KV Cache向委果奇迹

点击次数：151 发布日期：2026-06-08

长凹凸文模子越来越能"记"，但委果让它们跑到线上时巴音郭楞塑料管材生产线，先顶不住的时常不是算力，而是KV Cache。

每生成个新 token，模子都要回读越来越长的历史 Key 和 Value。凹凸文越长、batch 越大，KV Cache 对显存容量和显存带宽的蹧跶就越明显。

这亦然为什么 KV Cache 量化成了长凹凸文 serving 的中枢问题：压得不够，显存撑不住；压得太狠，理质料又容易崩。

Together AI、悉尼大学和 UIUC 的盘考团队，为此建议了种面向委果 serving 的 2-bit KV Cache 量化案——OSCAR。

模子不再仅仅把 K/V 张量压小，而是围绕 attention 委果会使用的向来作念旋转、剪辑和分组，让量化错误尽量避让模子明锐的部分。

在约 2.28 effective bits per KV element 的预算下，OSCAR 仍能接近 BF16；在 Qwen3-4B-Thinking 上，比拟全层 3-bit K/V TurboQuant，进步 40.1 分。

这意味着，KV Cache 压缩不再仅仅"少占显存"，而是运行参加委果长凹凸文奇迹系统的诡计中枢。

不是会"压缩向量"，而是运行保护 attention

当年好多 KV Cache 量化法，关怀的是若何好地 K/V 向量自己。

但在低比特场景里，这个指标并不老是等价于好的生成质料。

原因很平直：attention 委果消费的是 Key 和 Query 之间的匹配关系，以及 Value 被属眼光权重加权后的输出。K/V 重建错误看起来不大，并不代表 attention logits、attention block output 和后续 hidden state 不会被放大偏移。

2-bit INT 独一 4 个冲突等，而 KV activation 中又时常存在少数幅值很大的 outlier channel。

若是量化程序被这些端通谈牵着走，大部分平时值会被挤到很窄的区间里，attention 踱步也会随着偏。

泛泛 Hadamard 旋转不错把 outlier 散，却不知谈哪些向对 attention 重要。

OSCAR 的中枢变化就在这里：

它不再只问"何如把 K/V 向量得像"，而是问"何如让 attention 读到的重要信息尽量不变"。

△只用 K/V 重建错误，容易低估委果错误传播 OSCAR 把旋转瞄准 attention

OSCAR 的法不错抽象成句话：

用 attention-aware covariance 来决定 K/V 应该何如旋转。

具体到Key，量化错误理会过 QK ᵀ参加 attention logits，因此 OSCAR 使用 query covariance，也即是 Q ᵀ Q，来决定 Key 的旋转向。

具体到Value，错误会先被 attention score 加权，再参加 attention 输出，因此 OSCAR 使用 score-weighted value covariance，也即是 V ᵀ S ᵀ SV，来决定 Value 的旋转向。

离线校准阶段，系统用一丝样本算计每层、每个 head 的这些 covariance，并生成固定的旋转矩阵和 clipping 阈值。

理阶段，这些参数平直复用，不需要任务微调，也不需要在线学习。

终旋转不错写成：

R=U · Hadamard · bit-reversal

其中，U 细致对王人 attention 筹商向，Hadamard 用来摊平 outlier 能量，bit-reversal 让 INT2 分组平衡，避某个 group 被少数颠倒通谈主。

也即是说，OSCAR 不是浮浅"加个旋转"，而是把旋转、剪辑和分组都放进 attention 质料这个指标里。

△从离线校准到在线理的 pipeline

OSCAR 的另个重要点，是它莫得停留在离线量化评测里。

它还是接入 SGLang 的奇迹旅途，在运行时爱戴个三段式 token pool：

BF16 sink（64 tokens）｜INT2 history｜BF16 recent（256 tokens）

开端的 attention sink token 和近窗口 token 链接用 BF16 保存巴音郭楞塑料管材生产线，用来保护 attention sink 与近凹凸文。

中间长、占比大的历史 KV，则保存为旋转和剪辑后的 INT2。

新 token 会先写入 recent window。随着解码进，老的 recent token 会被融 Triton kernel 处理，完成 rotate、clip、quantize 和 pack，然后降参加 INT2 history。

存储上，每 4 个 2-bit 数值被包进 1 个 byte。

decode 阶段，OSCAR 在 GPU 上辩认处理 BF16 段和 INT2 段：

INT2 kernel 细致 unpack、scale/zero point 反量化以及浮点累加；BF16 kernel 处理 sink/recent；后再通过 online softmax merge 并两部分效果。

由于它兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline，OSCAR 面向的是可部署的长凹凸文 workload，而不是只展示漂亮的离线准确率。

小模子也能守住难理

论文在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 上作念了评估。

任务粉饰 GPQA、HumanEval、LiveCodeBench v6、AIME25 和 MATH500，永生成长度达到 32K，况且每个建立运行 5 次取平均。

效果披露，在约 2.28BPE 下，OSCAR 的精度仍然很是接近 BF16。

以Qwen3-4B-Thinking为例：

TurboQuant mean 为 31.74，QuaRot-INT2 独一 1.40，异型材设备Naive INT2 为 0.00；OSCAR 达到 71.86，距离 BF16 只差 3.78，况且比 TurboQuant 40.1 分。

在 Qwen3-8B 上，OSCAR mean 为 69.42，BF16 为 70.84，TurboQuant 为 56.88。

到了 Qwen3-32B 和 GLM-4.7-FP8，OSCAR 与 BF16 基本握平。

这组效果背后的含义，比单个榜单数字重要：

当任务委果依赖长链理、代码生成和数学时，低比特 KV Cache 的中枢瓶颈不是"能不可压"，而是压缩错误会不会遏抑 attention 的重要旅途。

OSCAR 的势，恰是让接近 2-bit 的预算仍然守住理质料。

论文还门看了AIME25这个难数学理任务，并加入 KIVI-KV2、Kitty 和 OSCAR 的对比。由于 KIVI 和 Kitty 莫得可平直用于 long context run 的 framework 提拔，论文选取了它们唯在 32K 下陈述的 AIME25 效果。

在 Qwen3-8B 上，OSCAR 以 2.38 BPE 达到 66.67，险些追平 BF16 的 66.00，并明显于 KIVI-KV2 与 Kitty。

在 Qwen3-32B 上，OSCAR 达到 74.00，略于 BF16 的 72.59，也过 Kitty 的 69.26。

这证实，OSCAR 的势不单体现时与 TurboQuant 的比较中。在现存 KV Cache 量化法里，它也能以接近 2-bit 的预算守住艰巨数学理能力。

但对 serving 系统来说，精度仅仅关。委果上线时，还要看显存、带宽、batch、prefix cache，以及端到端糊涂。

OSCAR 在系统层面的收益也很平直：

比拟 BF16 history storage，OSCAR 不错把 KV Cache memory 镌汰约 8 倍。

在 100k context、batch-size-1、full prefix-cache hit 的缔造下，decode 约 3 倍加快。

在大 batch 且显存预算固定时，job-level throughput 约 7 倍。

这背后的逻辑很直白：当历史 KV footprint 变小，系统就能在一样显存预算下容纳长凹凸文、大 batch，大概多并发申请。

prefix cache 掷中率越，KV Cache 压缩带来的收益越容易弯曲为糊涂进步。

关于分享系统领导、多轮 Agent、器具调用链路这类长前缀复用场景，这点尤其重要。

其实若是把 OSCAR 放在 KV Cache 量化的发展头绪里看，重要的不是它又把 bit 数压低了点。

重要的是，它把 2-bit KV Cache 的问题从"向量压缩"进到了" attention 质料"和" serving 系统"共同诡计。

好多低比特法为了保分，会把层、后层或多少明锐层保留在 bit。这天然能减少精度亏空，但也会抬平均 bit 数，并让 kernel 和 cache layout 复杂。

OSCAR 的设定接近委果奇迹：历史 KV 主体统使用 INT2，只在 sink 和 recent 两个很小窗口保留 BF16。

这让它容易接进 paged cache、prefix cache 和批量诊疗。

为什么这对长凹凸文 Agent 很重要

委果 Agent 时常包含很长的系统领导、器具证实、历史对话和检索实质。不同申请之间，还会存在大都分享前缀。

若是 KV Cache 沿路使用 BF16，显存很快会成为天花板。若是平直上朴素 INT2，理链条又可能失真。

OSCAR 给出了种系统的折中：长历史用 INT2 降容量和带宽；重要 sink/recent 用 BF16 保肃肃；再让 prefix cache 复用分享前缀。

这也阐述了为什么 attention-aware rotation 值得被单建议。

它不是个花哨的旋转手段，而是在再行界说低比特 KV Cache 的化指标：压缩不是方针，让模子在压缩后仍然能正确使用属眼光机制，才是方针。

诚然，TurboQuant 仍是很强的通用 online vector quantization 法，OSCAR 则注于 attention-aware 的 2-bit KV serving。

两者并不定只可二选。

OSCAR 现时 code repo 中还是把 attention-aware rotation 与强的 Lloyd Max codebook 结，把压缩率链接往限。

OSCAR 带来的重要启发是：2-bit KV Cache 若是要委果上线，旋转不可只追求"有"，而要瞄准 attention。

同期，它也须被放进委果 serving 系统里起诡计。

不外天然现时 OSCAR 还是粉饰多个模子范围和多类理任务，但委果线上 workload 复杂。翌日仍需要在多模子架构、硬件环境、prefix cache 掷中景象、多田户请乞降尾延伸场景中链接考证。

此外，OSCAR 管束的是 attention-aware rotation 与 2-bit KV serving。

后续若是能结强的动态窗口战略、多硬件后端和统 serving 框架，低比特 KV Cache 的范围还可能链接上前进。

P.S. 作家 Zhongzhu Zhou 是 Together AI 的 Senior Research Scientist，悉尼大学博士，盘考向包括机器学习系统、模子磨练与理的算法系统协同诡计，以及 LLM 压缩与量化。

团队成员辩认来自 Together AI、悉尼大学和伊利诺伊大学厄巴纳 - 香槟分校。

Together AI 创立于 2022 年 6 月，联创举东谈主包括苹果前管 Vipul Ved Prakash、斯坦福大模子盘选取心主任 Percy Liang、芝加哥大学教授 Ce Zhang，以及 FlashAttention 作家 Tri Dao。

论文贯穿：https://arxiv.org/abs/2605.17757

名目主页：https://oscar-quantize.github.io/

代码贯穿：https://github.com/FutureMLS-Lab/OSCAR

ModelScope 贯穿：https://modelscope.cn/models/togethercomputer/OSCAR-RotationZoo

HuggingFace 贯穿：https://huggingface.co/Zhongzhu/OSCAR-RotationZoo

键三连「点赞」「转发」「防范心」

宽待在驳斥区留住你的念念法！

— 完 —

咱们正在招聘名眼疾手快、关怀 AI 的学术编著实习生 � �

感敬爱的小伙伴宽待关怀 � � 了解笃定

� � 点亮星标 � �

科技前沿阐扬逐日见电话：0316--3233399相关词条:铁皮保温塑料挤出机钢绞线玻璃卷毡厂家保温护角专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

下一篇：濮阳塑料挤出机设备遭排挤到逆袭! 神洲二十三号1员驻留年, 展现弘愿上一篇：抚州塑料管材生产线厂家满足理走向法化，满足变化诉讼亟待系统轨则支握

湛江异型材设备价格_建仓机械

巴音郭楞塑料管材生产线越TurboQuant：Together AI把2-bit KV Cache向委果奇迹

推荐资讯

热点资讯/a>

最新资讯

友情链接：

关于我们

新闻资讯

产品展示

湛江异型材设备价格_建仓机械

巴音郭楞塑料管材生产线 越TurboQuant：Together AI把2-bit KV Cache向委果奇迹

推荐资讯

热点资讯/a>

最新资讯

友情链接：

关于我们

新闻资讯

产品展示

巴音郭楞塑料管材生产线越TurboQuant：Together AI把2-bit KV Cache向委果奇迹