首页 >> 科技 >

揭秘高效Attention引擎的打造之路:陈天奇团队FlashInfer新年首秀震撼发布!

2025-01-23 19:45:25 来源:网易 用户:杜聪翠 

FlashInfer,由陈天奇团队在新年第一天于arxiv发布,该论文由华盛顿大学、英伟达、Perplexity AI和CMU的研究人员共同撰写。

FlashInfer通过块稀疏和可组合格式解决了KV cache存储异构问题,优化了内存访问并减少了冗余,实现了高效的注意力引擎。

它提供了可定制的注意力模板,并通过即时编译(JIT)适应各种Attention设置。

此外,其负载平衡调度算法可根据用户请求动态调整,同时与静态配置的CUDAGraph兼容。

FlashInfer已应用于SGLang、vLLM和MLC-Engine等LLM Serving框架中,显著提升了内核性能。

论文详细阐述了如何利用块稀疏格式优化GPU利用,以及如何通过可组合和定制化特性满足多样化需求。

实测显示,FlashInfer在多种推理场景中大幅降低了token间延迟和长上下文推理延迟,提高了并行生成速度。

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章
版权与免责声明:
①凡本网注明"来源:智车网"的所有作品,均由本网编辑搜集整理,并加入大量个人点评、观点、配图等内容,版权均属于智车网,未经本网许可,禁止转载,违反者本网将追究相关法律责任。
②本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
③如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,我们将在您联系我们之后24小时内予以删除,否则视为放弃相关权利。
滚动资讯