《Long-Context vs RAG:谁将主导未来?-唐飞虎.pdf》由会员分享,可在线阅读,更多相关《Long-Context vs RAG:谁将主导未来?-唐飞虎.pdf(61页珍藏版)》请在三个皮匠报告上搜索。
1、Long-Context vs RAG谁将主导未来?唐飞虎MoonshotAI大纲 RAG什么是 RAG?RAG 相关的技术与框架 Long-ContextLong-Context 的发展历程Long-Context 摩尔定律?Long-Context 的评测:长文本和长文本亦有差距 能力边界与优势区间 更多案例 突破限制:如何提升 RAG 和 Long-Context 的边界RAG什么是 RAG?RAG 全称 Retrieval-Augmented Generation,即检索增强生成,它结合了检索和生成的能力,为文本序列生成任务引入外部知识。目前,大部分公司倾向于使用 RAG 方法进行信息
2、检索,因为相比长文本的使用成本,使用向量数据库的成本更低。而在 RAG 应用过程中,一些公司会使用微调的 Embedding Model,以增强 RAG 的检索能力;另一些些公司会选择使用知识图谱或者 ES 等非向量数据库的 RAG 方法。大多数第三方个人和企业开发者会使用集成好的 RAG 框架(例如 llamaindex、langchain、etcs)或者直接使用 LLMOps 里内建的 RAG 工具。例子什么是什么是 RAG(Retrieval Augmented Generation)?Long-ContextLong-Context 的评测 上下文长度可能存在摩尔定律,目前尚未触碰真正
3、的瓶颈。目前从硬件、架构、算法等多种角度优化模型上下文长度的技术方案。很多厂商生称其模型支持百万、甚至五百万上下文长度。但长文本和长文本之间在质量和效果上亦有差距,要同时优化长度和无损压缩水平两个指标,才是有意义的规模化。核心技术全球领先:已支持核心技术全球领先:已支持200万字无损长窗口万字无损长窗口从20万字到200万字无损长窗口,只用了不到 6 个月2024年3月中旬月之暗面月之暗面200 万字万字 Kimi正正正正正正正正正正正正正正正正正正正正约 200 万字2024年2月中旬Google 1M Gemini 1.5 约 80 万字正正正正正正正正正正正正正正正正正正正正2023年1
4、1月下旬Anthropic 200K Claude 2.1约 16 万字正正正正正正正正正正正正正正正正正正正正OpenAI128K GPT-42023年11月上旬约 10 万字正正正正正正正正正正正正正正正正正正正正2023年10月上旬月之暗面月之暗面20 万汉字万汉字 Kimi约 20 万字正正正正正正正正正正正正正正正正正正正正长窗口无损压缩能力强,不错过每个细节长窗口无损压缩能力强,不错过每个细节“数星星”测试是大海捞针的升级版,由腾讯MLPD实验室自主进行,结果发表在 ArXiv 上来源:https:/arxiv.org/abs/2403.11802GPT-4 Kimi96.598.
5、8GPT-4 Kimi96.886.4GPT-4 Kimi89.793.116(24)32(25)64(26)100%准确率计数次数能力边界与优势区间RAGPros.无需额外训练速度快成本低工程方案成熟可设计多级检索方案Cros.Embedding 召回效果直接影响模型回答效果无法处理复杂逻辑对多模态支持不足Long-ContextPros.无需额外训练上下文兼顾更全面可处理复杂逻辑和依赖Cros.贵且慢长度有限更多案例结论 Long-Context:修炼模型基本功 RAG:扩展模型能力边界 Long-Context+RAG 互补:给予开发者无限可能结论 Software Engineerin
6、g is about trade-offs:make sure you have options!何时使用 RAG,何时依赖模型 Long-context 能力?考验架构师和产品经理对模型边界和现有 SOTA 框架的运用与理解。突破限制RAGPros.无需额外训练速度快成本低工程方案成熟可设计多级检索方案Cros.Embedding 召回效果直接影响模型回答效果无法处理复杂逻辑对多模态支持不足RAGPros.无需额外训练速度快成本低工程方案成熟可设计多级检索方案Cros.Embedding 召回效果直接影响模型回答效果无法处理复杂逻辑对多模态支持不足Long-ContextPros.无需额外训
7、练上下文兼顾更全面可处理复杂逻辑和依赖Cros.贵且慢长度有限Long-ContextPros.无需额外训练上下文兼顾更全面可处理复杂逻辑和依赖Cros.贵且慢长度有限Long-Context 性能瓶颈并发性能随着上下文长度的增加而反比下降。预填充延迟随上下文长度的增长而呈平方级别的增长。解码延迟和上下文切换开销随上下文长度的增加而线性增加。Long-Context 性能瓶颈并发性能随着上下文长度的增加而反比下降。预填充延迟随上下文长度的增长而呈平方级别的增长。解码延迟和上下文切换开销随上下文长度的增加而线性增加。Long-Context 推理优化硬件升级A100 Memory Hierarc
8、hy机器学习工程FlashAttentionvLLM模型架构MoESpeculative DecodingLong-Context 推理优化LayerConfident Adaptive Language Modeling,2022CoLT5:Faster Long-Range Transformers with Conditional Computation,2023LayerSkip:Enabling Early Exit Inference and Self-Speculative Decoding,2024You Only Cache Once:Decoder-Decoder Arch
9、itectures for Language Models,2024HeadGQA:Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints,2023Long-Context 推理优化HeadRetrieval Head Mechanistically Explains Long-Context Factuality,2024DeepSeek-V2:A Strong,Economical,and Efficient Mixture-of-Experts Language Model,2024H
10、idenKIVI:A Tuning-Free Asymmetric 2bit Quantization for KV Cache,2024WKVQuant:Quantizing Weight and Key/Value Cache for Large Language Models Gains More,2024Long-Context 推理优化TokenH2O:Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models,2023Model Tells You What to Discard:A
11、daptive KV Cache Compression for LLMs,2023Dynamic Memory Compression:Retrofitting LLMs for Accelerated Inference,2024SnapKV:LLM Knows What You are Looking for Before Generation,2024TriForce:Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding,2024参考资料ACL 2023 Tuto
12、rial:Retrieval-based Language Models and ApplicationsRetrieval-Augmented Generation for Large Language Models:A SurveyRetrieval-Augmented Generation for AI-Generated Content:A SurveyLarge Language Model Based Long Context Modeling Papers and BlogsFull Stack Transformer Inference Optimization Season 2:Deploying Long-Context Models想要了解更多?想要了解更多?欢迎加入欢迎加入我们的开发者社群。我们的开发者社群。让 Kimi 告诉你更多