《Datafun3.23 智慧芽 王为磊.pdf》由会员分享,可在线阅读,更多相关《Datafun3.23 智慧芽 王为磊.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummitDataFunSummit#20242024专利大模型的实践与问答探索专利大模型的实践与问答探索王为磊 智慧芽 搜索与算法总监兼首席科学家专利大模型介绍专利大模型介绍训练过程训练过程专利检索专利检索+专利大模型专利大模型挑战和展望挑战和展望目录目录DataFunSummitDataFunSummit#202420240101专利大模型专利大模型智慧芽垂直领域大模型智慧芽垂直领域大模型PatentPatent GPTGPTPharmPharm GPTGPT算法能力算法能力Leading Algorithm CapabilitiesMaterialsMaterials G
2、PTGPTAI专家检索AI-powered Expert Retrieval专利申请书撰写助手Assisted Patent Drafting自动生成检索式Automatically Generate Search ExpressionsAI技术问答Conversational Answers to Technical Questions内容生成Content Generation对话问答DialogueQ&A精准检索和专业推荐Precision Search and Professional Recommendation多语言翻译Multilingual Translation总结分析Sum
3、marize and Analyze基于领域专家反馈的强化学习Reinforcement Learning with Expert Feedback监督精调Supervised Fine-tuningRAG检索增强生成Retrieval-Augmented GenerationAI标引Automatic Indexing药物情报助手Drug Search AssistantAI技术预研AI-powered Technical Pre-research自研大模型Self-developed large-scale modelAI助手AI AssistantAI专利对比AI-powered Tec
4、hnical Pre-researchAI专利和论文解读AI-powered Interpretation of Patent and Papers垂直数据基石垂直数据基石PatsnapPatsnap DataData setssets专利Patent生物序列Bio Sequences文献Literature新闻News书籍Books化学结构Chemical Structures适应症Indication药物Drug靶点Target论文Papers材料性质 Material PropertyAI缴费Assisted Paying实践的一些经验实践的一些经验:有差异化的海量数据有小模型+大模型大
5、模型:CPT+SFT+Reward+PPO(DPO)应用场景数据提取产品场景RAG在SAAS行业是必要的组合飞轮算法LLM Algorithm数据基石Data数十个小模型Bert Based models芽仔芽仔DataFunSummitDataFunSummit#202420240202专利大模型训练专利大模型训练领域数据(专利论文等246B246B tokenstokens )PatentGPTPatentGPT差异化差异化数据集数据集a)Patent GPT:超246B训练数据,包括全球170个受理局的超1.8亿专利、超1.6亿论文、超2100万新闻、超50万投融资、超1.1亿企业、超7
6、8万市场报告以及40万本书籍数据。算法面向业务算法面向业务a)大小模型结合:结合智慧芽沉淀的几十种小模型算法能力,数据处理+SFT数据挖掘+小模型的监督数据;b)数据配方:基于垂直大模型的应用场景建立独特的数据配方;c)基于领域专家反馈的强化学习:拥有超过50位知识产权和生物医药专家,反馈2万条训练效果数据,与人类意图保持一致;d)RAG检索增强生成:RAG技术加强大模型理解能力,结合知识库,更好理解企业私有数据,实现问答能力的拓展。(专利搜索)只比垂直只比垂直业务能力,不比通用能力业务能力,不比通用能力a)垂直行业能力超越ChatGPT-3.5,部分超越ChatGPT-4;专利撰写、专利对比
7、、专利搜索专利撰写、专利对比、专利搜索。b)PatentGPT通过中国专利代理师资格考试专利大模型:三个版本,不断试错专利大模型:三个版本,不断试错ModelTraining endChip typeTFLOP/s(max)Chip countWall clock time(days)Total time(years)Cost($US)GPT-3Apr/2020V10013010,00015 days405 years$9MLlama 1Jan/2023A1003122,04821 days118 years$4MLlama 2Jun/2023A1003122,04835 days196 ye
8、ars$7MGPT-4Aug/2022A10031225,00095 days6,507 years$224MGeminiNov/2023TPUv427557,000100 days15,616 years$440M Base ModelBase ModelParamsParamsC o n t e x t C o n t e x t LengthLengthTokensTokensLRLRPatentGPT-0.5PatentGPT-0.5LLAMA213 B16 k246 B210-5PatentGPT-1.0PatentGPT-1.0LLAMA270 B4 k246 B210-5Pate
9、ntGPT-1.5PatentGPT-1.5Mistral 87B45 B16 k246 B310-5CPT+SFT+Reward+DPO(PPO)专利大模型专利大模型:数据数据Data sizeData recipeDatasets for Large Language Models:A Comprehensive SurveyPatentGPT的数据配比 https:/ SFT和10w条人类偏好数据。d)RAG检索增强生成:R for G;G for R;独立的业务Embedding(非对称,X关系对比学习等)b)a)c)d)b)SFTSFT:InstructionInstruction
10、Tuning unlock pretrain modelTuning unlock pretrain model三类数据三类数据数量数量:Double descent phenomenon:Double descent phenomenon融合到pretrain去预学习(OPT-IML)Multi-stage Instruction Tuning/weighted质量质量(quality)quality)PerplexityPerplexity scorescore?正确性,gpt4-score?多样性多样性(diversity)diversity)(前两者的组合)(前两者的组合)增加指标和增
11、加指标和LOSSLOSS选择选择参考:INSTRUCTION MINING:INSTRUCTION DATA SELEC-TION FOR TUNING LARGE LANGUAGE MODELS训练策略训练策略数据三核心数据三核心专利大模型:评估专利大模型:评估 MMLUMMLUC-EvalC-EvalAverageAveragePatentGPT-0.5514548PatentGPT-1.0614653.5PatentGPT-1.559525255.5ChatGPT-3.5-turbo66664756.5通用能力是否正常:MMLUMMLU,C-EVALC-EVAL专利领域公开测试集:Pat
12、ent-MatchPatent-MatchPatentMatchPatentMatch-EN-ENPatentMatchPatentMatch-ZH-ZHAverageAverageChatGPT-3.5 turbo34.64338.8PatentGPT 0.549.559.254.4PatentGPT 1.066.2727269.1PatentGPT 1.570.670.665.865.7专利领域自建测试集(面向业务):Patent-BenchPatent-Bench专利撰写(Drafting)、专利总结(Summary)、专利问答(QA)(PatentGPT vs GPT3.5-turbo
13、,GPT-4 evaluate)miscni2024mozip,title=MoZIP:A Multilingual Benchmark to Evaluate Large Language Models in Intellectual Property,author=Shiwen Ni and Minghuan Tan and Yuelin Bai etc year=2024,eprint=2402.16389,archivePrefix=arXiv,primaryClass=cs.CL*PatentGPT 1.5 SFT 还有一些问题。专利抽取:抗体轻重链提取专利抽取:抗体轻重链提取+抗原
14、配对信息抗原配对信息CN101851291B 一种抗人BAFF单克隆抗体的重链和轻链可变区抗原:抗原:BAFF配对抗体信息:配对抗体信息:轻链轻链重链重链SEQ ID No.1SEQ ID No.20017所述的轻链可变区的氨基酸序列如SEQ ID NO.1所示,重链可变区的氨基酸序列如SEQ ID NO.2所示。0018所述的编码轻链可变区的基因序列如SEQ ID NO.3所示,编码重链可变区的基因序列如SEQ ID NO.4所示。0019抗人BAFF单克隆抗体的重链和轻链的可变区应用于以人BAFF分子为靶点的基因工程抗体或疫苗的制备。质量+后处理圈定专利+标注平台搭建人工(400+人天)5
15、个月“LLMLLM加速加速”LLM+规则4人天完成,取代大量人工标注“传统方法传统方法”4人天提取2万组抗体,准确率准确率99%99%,较人工效率提升提升100100倍倍示例文本示例文本:输出结果PatentBert+FineTuning圈定专利+标注平台搭建人工标注(100+人天)2个月“小模型方法小模型方法”技术方案对比:抗体抗原实验结果技术方案对比:抗体抗原实验结果实验结论实验结论 含有海量领域知识,对解决问题,更加符合“业务”Finetune 之后可以取得可观的下游任务性能提升,但多任务的“配方指令”数据是挑战。在少监督数据下,多元关系抽取,传统模型很难取得好的结果,PatentGPT
16、有明显的优势 目前阶段,模型规模比模型架构更加重要(scaling law)BertBert BasedBasedOpenAIOpenAI GPT3.5 GPT3.5 zeroshotzeroshot(17501750亿参数)亿参数)PatentGPTPatentGPT v0.3v0.3(130130亿参数)亿参数)PRF1PRF1PRF1抗体轻重链配对51.8%53.7%52.7%93.7%73.3%82.2%95.5%69.5%80.4%抗原名称提取54.9%78.3%64.5%78.6%85%81.6%90.4%85%87.6%抗体-抗原关系提取53.4%52.5%53.1%79.8%6
17、2.5%70.1%90.2%65.7%76%DataFunSummitDataFunSummit#202420240303专利搜索与大模型结合专利搜索与大模型结合为什么要为什么要RAGRAG(RetrievalRetrieval AugmentedAugmented generationgeneration)模型层面减少幻觉解决更新信息的问题少量高价值数据的利用问题业务层面获取更可信正确的结果有引用链接,提高可解释性获取新增领域信息解决产品迭代RAG 架构:Retrieval-Augmented Generation for Large Language Models以前的搜索积累是否可以用?
18、要做哪些改变以前的搜索积累是否可以用?要做哪些改变 ModelModel ParameterParameterTotalTotal sizesize Patent_BERT_CN (our)H=768,L=12,A=12 110M Patent_BERT_EN_Uncased_v2.0 (our)H=768,L=12,A=12 110M PatentBert:Vocabulary:34001Train data:1.1TBLoss:Masked LM+SOP 关键词抽取算法的优化,PositionRank、Copyrnn、NER、POS Rules.(可以重新做)对比学习,样本量的突破(10w
19、-1000w)IPC/CPC分类算法的优化,TextCNN,BERT classify;(标量向量相结合的平台)Pretrain:PatentBertRAGRAG在智慧芽的实践架构在智慧芽的实践架构:找到答案找到答案+探索?!探索?!RetrievalText2SQL(PatentSQL)BM25(Query Understanding变形和扩展)Embedding(非对称10亿+)Query RewriteReRankerChunkingPatentGPT带搜索结果的SFT和强化学习RAGRAG挑战:一半是工程,一半是算法突破挑战:一半是工程,一半是算法突破 多轮对话中过程中搜索改写 判断是
20、否需要搜索(小参数的大模型)搜索和大模型的深度融合(SELF-RAG)长文本的稳定理解问题(Lost in middle)100亿向量的性能问题DataFunSummitDataFunSummit#202420240404未来思考未来思考未来的一些方向思考未来的一些方向思考 稀疏化:MOE(Mixture of Experts):balance of cost,speed,precision,training Strategy 自我迭代:Reinforcement learning:self play 长文本:Long context(16k完成,64k.)多模态:Multi-mode Agent文本版面分析附图表格数学公式序列化合物信息还原感谢观看感谢观看谢谢观看