AI 社区线索

超越 TurboQuant! OSCAR:面向真实 Serving 的 2bit KV Cache量化

长上下文模型的能力还在往前走,但在线推理服务遇到的压力,很多时候已经不只是计算量本身。

摘要

长上下文模型的能力还在往前走,但在线推理服务遇到的压力,很多时候已经不只是计算量本身。

正文摘录

长上下文模型的能力还在往前走,但在线推理服务遇到的压力,很多时候已经不只是计算量本身。

← 返回 AI追踪