上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2-刘志伟-软件工程领域基于 LLM 的生成式搜索实践.pdf

编号:151986 PDF 26页 6.02MB 下载积分:VIP专享
下载报告请您先登录!

2-刘志伟-软件工程领域基于 LLM 的生成式搜索实践.pdf

1、软件工程领域基于 LLM 的生成式搜索实践刘志伟蚂蚁集团风险效能高级技术专家刘志伟(比奥)风险效能部搜索与推荐团队负责人,负责:私域搜索,包括研发知识搜索、小程序私域搜索 分布式链路追踪、微服务问题排查、智能客服 代码大模型的数据、模型解释性方向现就职于蚂蚁集团,高级技术专家目录CONTENTS搜索的业务场景01 研发域搜索架构以及业务效果02 大模型痛点以及和搜索整合的架构03 产品实践04 讨论05 研发领域的搜索的重要性搜索是解决大规模数据下信息和知识如何高效获取的问题58%开发人员 58%的时间是在搜索和阅读理解代码60%11%当开发人员能轻松找到他们需要的东西时,他们觉得自己有能力完

2、成工作的可能性高出 60%,此外,只要团队仓库易于搜索,就有 11%的生产力提升数据来自:https:/ program comprehension:A large-scale field study with professionals研发域搜索的场景通用研发场景:新人了解产品技术情况新人了解产品技术情况 我是个新同学,希望对历史的信息了解的不全面,想要对历史的信息做追溯和了解,通过搜索过滤 交接新的平台或业务,了解过去的需求背景及实现细节等 寻找问题排查方案寻找问题排查方案 找一些研发文档、技术手册,当开发的任务有运行问题时,为了解决这些问题就会去找文档 想做某件事不知道去哪里完成想做某件

3、事不知道去哪里完成 需要下线一台机器,知道公司有个平台中某个功能,但怎么也找不到在哪 资料学习资料学习 学习的时候会找一些学习资料,比如高并发相关 研发域搜索的场景代码研发场景:不知道怎么用(找不到参考代码)不知道怎么用(找不到参考代码)某个中台接口,38 个入参、37 个出参,20 个错误码。支持上万的业务场景(包括了如扫码付、地铁协议支付),每个业务场景该传什么参数 使用一个开源的组件,接口文档不清晰,不知道怎么用 重复开发造成低效工作量浪费重复开发造成低效工作量浪费 要做个协议转换,知道肯定有人已经写过了,但不知道哪里有,重复开发 看到某网站使用了一个厉害的前端组件,怎么才能快速找到自己

4、也用起来 影响太多,不敢改代码影响太多,不敢改代码 支付流水号扩位(16 位改 32 位),数周到数月的人工批量检查大规模代码 漏洞止损难漏洞止损难 业界 log4j 报了安全漏洞,全仓库有没有使用有问题的 log4j 版本 全仓库是否有明文秘钥,以及泄露在哪些地方了 基础框架升级难基础框架升级难 Python2 要升级 Python3,全仓库哪些地方使用 Python2,升级进展怎么样 代码定位难代码定位难 日志报错在哪打的,谁改了这段代码 搜索当前的痛点问题以小程序私域搜索为例:以小程序私域搜索为例:搜索流量小,实际引导和转化效果差1、搜索框入口和Query下拉列表无任何提示引导2、搜索发

5、现和热搜榜单固定词条配置,“千人一面”3、销量主导下商品排序因子单一,中长尾商品无曝光和转化搜索改版前研发域搜索的架构方案关键点 产品层,搜索能力接入 多种数据源对接方式 离线索引数据计算和生成 索引数据存储 用户画像,千人千面 在线高性能相关性召回小程序云-智能搜索案例介绍开发支付宝小程序:开通支付宝小程序云 智能营销版块即使用智能搜索能力,数据导入,即可通过插件或 API 接入搜索能力 同时还有个性化推荐、用户画像、增长分析等小程序云-智能搜索案例介绍搜索还未被很好解决的痛点但搜索还有未被很好解决的痛点:知识获取成本依然高 分散在多个平台多个常用的平台挨个尝试 相关性的结果,多个搜索结果自

6、己总结答案举例:在已有代码上找到 API 几种典型的用法并参考。然而通过相关性找到的搜索结果往往成千上万大模型是解决这些问题很好的技术方案截图来自:https:/ 无法记住全部知识 知识具有一定的时效性 容易泛化虚假答案行业的解决方案 OpenAI:chatgpt-retrieval-plugin WebGPT LangChain:检索增强 chatgpt-retrieval-plugin https:/ 研发领域底座模型 0-1 生成式搜索总结模型微调 数据与知识的构建研发领域的底座模型构建-数据 采集&清洗:Github 公开仓库 百T+,commit,PR 等公开数据;计算机类图书、教材

7、;论文;计算机类站点等,清洗出 T 级别的计算机高质量数据集 核心清洗技术:研发领域主流LLM低质量过滤模型,以及代码领域的深度程序分析技术,基于语法、缺陷等深度清洗,代码画像聚类确保数据类型分布合理研发领域的底座模型构建-算法 GPT 架构,旋转位置编码等优化 研发领域的行业大模型,MBPP 评测国内和国际第一梯队 生成式搜索总结模型的构建 总结模型微调:在底座模型基础上,构造微调数据,形成总结模型。具备更好在总结能力,以及文档引用。Prompt 构建:prompt 构建需要很好的技巧,经实验,20%+的问法可以通过优化 Prompt 得到更好的回答数据与知识的构建3 类数据:第一类:实时上

8、下文数据 Prompt 补齐上下文 第二类:站点内容数据 模型训练与微调 搜索与总结 第三类:站点能力接口 能力触发数据管理平台生成式搜索的用户交互站点的搜索框一行代码嵌入搜索框组件,自动具备大模型能力生成式搜索的用户交互插入在站点的气泡框搜索和答疑场景:各站点平台在操作的过程中会遇到各种问题,比如代码托管平台,用户如何申请仓库权限大模型:研发领域行业大模型持续改进越来越好 数据:大规模高质量清洗和加工,建设数据质量模型,精细化清洗技术 算法:大模型结构算法改进,PEFT、MQA、attention 层改造 等 场景:持续落地各业务场景,解决好研发域各种场景问题:text-2-command,text-2-sql,问题排查,code review,测试用例生成,故障应急等,部分场景已达到 80%准确度以上,线上应用状态重塑研发产品:大模型原生的 cloudIDE,产品体验代际提升 站点智能助手:一行代码插入搜索框或气泡,即具备大模型交互,提升用户体验、留存和转化 CodeFuse 代码大模型:自然语言生成代码、网页、小程序 大模型全面研发和产品重塑中,欢迎合作或加入一起未来展望欢迎交流讨论 研发领域的大模型合作 支付宝小程序私域智能搜索 技术交流钉钉微信感谢聆听关注QECon公众号

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2-刘志伟-软件工程领域基于 LLM 的生成式搜索实践.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部