首页 >> 科技 >

揭秘高效Attention引擎的打造之路：陈天奇团队FlashInfer新年首秀震撼发布！

2025-01-23 19:45:25 来源：网易用户：杜聪翠

FlashInfer，由陈天奇团队在新年第一天于arxiv发布，该论文由华盛顿大学、英伟达、Perplexity AI和CMU的研究人员共同撰写。

FlashInfer通过块稀疏和可组合格式解决了KV cache存储异构问题，优化了内存访问并减少了冗余，实现了高效的注意力引擎。

它提供了可定制的注意力模板，并通过即时编译（JIT）适应各种Attention设置。

此外，其负载平衡调度算法可根据用户请求动态调整，同时与静态配置的CUDAGraph兼容。

FlashInfer已应用于SGLang、vLLM和MLC-Engine等LLM Serving框架中，显著提升了内核性能。

论文详细阐述了如何利用块稀疏格式优化GPU利用，以及如何通过可组合和定制化特性满足多样化需求。

实测显示，FlashInfer在多种推理场景中大幅降低了token间延迟和长上下文推理延迟，提高了并行生成速度。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

最新文章

揭秘高效Attention引擎的打造之路：陈天奇团队FlashInfer新年首秀震撼发布！

FlashInfer，由陈天奇团队在新年第一天于arxiv发布，该论文由华盛顿大学、英伟达、Perplexity AI和CMU的研究...浏览全文>>
俄媒披露：特朗普对俄乌冲突向俄发出强硬最后通牒，克宫发言人迅速回应

俄罗斯《生意人报》等媒体23日报道，美国总统特朗普就俄乌冲突向俄罗斯发出了强硬“最后通牒”。对此，俄罗斯...浏览全文>>
《明末：渊虚之羽》实机曝光：激战BOSS吃人头陀与羽化祭司

巴哈姆特电玩瘋平台近日发布了国产动作游戏《明末：渊虚之羽》的序章BOSS战实机演示视频。该视频精彩呈现了游...浏览全文>>
谷歌微软掀起企业级AI价格战，海量AI功能免费开放，助力企业月省200元

谷歌和微软在企业级AI应用领域掀起价格战，两者相继免费开放更多企业版AI聊天助手功能，免去了原本需支付的月...浏览全文>>
Cathie Wood论特朗普加密举措：TRUMP实用性存疑，但引领加密革命新篇章

ARK Invest的首席执行官Cathie Wood在彭博社采访中透露，尽管对特朗普总统推出的memecoin（TRUMP）的实用性...浏览全文>>
多家上市企业抢滩AI玩具市场，2030年全球市场规模或突破350亿美元大关

当前，AI玩具市场需求持续升温，新产品层出不穷。作为大模型在硬件端的热门落地场景，AI玩具吸引了众多上市公...浏览全文>>
国产文字冒险佳作《饿殍：明末千里行》销量破百万，Steam平台赞誉连连！

零创游戏宣布，其文字冒险游戏《饿殍：明末千里行》销量已突破百万份，感谢每位玩家的支持与喜爱。这一成就标...浏览全文>>
券商剖析：中长期资金加速涌入A股，春季行情展望乐观

《关于推动中长期资金入市工作的实施方案》提出提升实际投资比例和延长考核周期两大策略，旨在优化资本市场资...浏览全文>>
特朗普（TRUMP）代币风靡，助推Solana交易量跃居以太坊之上

据币界网援引The Block数据与洞察报道，特朗普原版（TRUMP）代币的热潮显著提升了Solana上去中心化交易所（DE...浏览全文>>
河南郑州列车撞人传闻不实，官方已澄清谣言信息

近日，网上流传郑州解放桥有人跳下被火车撞伤的谣言，导致列车晚点。但经郑州铁路站1月22日发布的消息证实，该...浏览全文>>

版权与免责声明:

①凡本网注明"来源：智车网"的所有作品，均由本网编辑搜集整理，并加入大量个人点评、观点、配图等内容，版权均属于智车网，未经本网许可，禁止转载，违反者本网将追究相关法律责任。
②本网转载并注明自其它来源的作品，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品来源，并自负版权等法律责任。
③如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，我们将在您联系我们之后24小时内予以删除，否则视为放弃相关权利。

大家爱看

频道推荐

滚动资讯