谷歌近日推出了一种新的压缩算法TurboQuant,旨在降低人工智能系统的内存需求。该算法特别针对大语言模型和向量搜索引擎中的键值缓存瓶颈问题。随着上下文窗口的增大,这些缓存成为主要的内存瓶颈。TurboQuant可以在无需重新训练或微调模型的情况下,将键值缓存压缩至3比特精度,并且基本保持模型准确率不受影响。
测试结果显示,TurboQuant对包括Gemma和Mistral在内的开源模型实现了约6倍的键值缓存内存压缩效果。在英伟达H100加速器上的测试中,与未量化的键向量相比,该算法最高可实现约8倍的性能提升。研究人员表示,这项技术不仅适用于AI模型,还能增强大规模搜索引擎的向量检索能力。谷歌计划在2026年4月的国际学习表征会议上展示这一技术。
(网站咨询与信息版权问题处理:wfxxw@foxmail.com)

![杨笠说一夜爆红时父亲癌症晚期 悲喜同行的生存哲学[推荐]](http://www.wlchinahc.com/file/upload/202603/27/231757991.jpg)
![媒体:傲慢就是罗技的坟墓 消费者尊严何在[推荐]](http://www.wlchinahc.com/file/upload/202603/27/232330791.jpg)
![民警十分钟找到还不知丢证的考生:要是没身份证,家都回不去了[推荐]](http://www.wlchinahc.com/file/upload/202603/26/224801611.jpg)
![警方通报高空撒钱:嫌犯抛撒赃款,抓捕现场现金满天飞[推荐]](http://www.wlchinahc.com/file/upload/202603/26/225852621.jpg)