上海品茶

Transformer和YOCO的缓存和预填充时间对比-行业数据

Transformer和YOCO的缓存和预填充时间对比

Transformer和YOCO的缓存和预填充时间对比原图定位

为什么说 YOCO 只需要“cache only once”？“cache only once”主要针对的是Self-Decoder 部分，这部分会采用高效自注意力机制（图表 29 中 Efficient Self-Attention），例如常见的滑窗注意力。这样当用户输入长上下文 N 时，需要缓存的数量为 O(N+CL)，其中 C 代表滑窗的宽度（也就是只在 C 长度范围内计算注意力），L 为解码器层数。当上下文N 特别长时，CL 相比于 N 可以忽略，因此复杂度变为 O(N)，即近似于解码器部分只需要将长上下文 N 缓存一次。而传统的 Transformer 每一层都要缓存 KV，故相对应的缓存数量为 O(LN)。即 YOCO 的 KV cache 消耗大约仅为普通 Transformer 的 1/L。

联系我们

sgpjbg002
工作日 8:30 - 17:30

关于我们

侵权处理

关于我们

出版物经营许可证
工信部备案号：
公安备案号：
友情链接申请（QQ）：1169843351

三个皮匠报告专业的行业报告下载站，每日更新，欢迎大家关注！

copyright@2008-2013 长沙景略智创信息技术有限公司版权所有
网站备案/许可证号：湘B2-20190120

客服

商务合作

小程序

服务号

<tr id='uPI70'><strong id='Q45eL'></strong><small id='HUgfi'></small><button id='p4g3A'></button><li id='Q1s5e'><noscript id='nWIU6'><big id='IrXcp'></big><dt id='AydRz'></dt></noscript></li></tr><ol id='O1ugQ'><option id='Qy3VV'><table id='ipSp4'><blockquote id='ExO2V'><tbody id='4vkjd'></tbody></blockquote></table></option></ol><u id='q7d1R'></u><kbd id='1ZyDV'><kbd id='1Flnx'></kbd></kbd>

<code id='UYaJY'><strong id='oLcrf'></strong></code>

<fieldset id='40oGR'></fieldset>

<span id='veqan'></span>

<ins id='JwvHF'></ins>

<acronym id='V7U0j'><em id='UA6ly'></em><td id='xZ39T'><div id='jNUfd'></div></td></acronym><address id='H0AGB'><big id='aTlR8'><big id='QgPF4'></big><legend id='KgnDD'></legend></big></address>

<i id='yflfa'><div id='AoY57'><ins id='KKBgc'></ins></div></i>

<i id='2ilGl'></i>