Tether AI 研究团队近日宣布将 TurboQuant 生产版开源,并将其集成至 QVAC SDK 0.12.0。TurboQuant 源自 Google Research 的内存压缩算法,能够将 AI 运行时的 KV 缓存压缩幅度最高达 5 倍,同时保持与未压缩模型几乎相同的输出质量。借助此技术,笔记本电脑、智能手机以及各种边缘设备在无需将数据上传至云端的前提下,即可处理更长的对话、更大的文件以及更复杂的任务。此次开源发布提供了完整的量化流水线、对主流推理框架的适配器以及详细的开发者文档,旨在帮助消费级硬件、边缘设备和点对点网络上的开发者与初创团队更便捷地部署 AI。