《张俊《SuperSonic:基于大模型的ChatBI平台建设实践》.pdf》由会员分享,可在线阅读,更多相关《张俊《SuperSonic:基于大模型的ChatBI平台建设实践》.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、SuperSonic:基于大模型的ChatBI平台建设设实实践张俊 腾讯音乐内容库数据负责人目录一Self-Service BI新范式二Text-to-SQL技术概览三SuperSonic建设实践四未来展望一、Self-Service BI新范式传统表单式的Self-Service BI形成产品矩阵,建设的先后顺序、使用占比因环境而异,没有统一标准DashboardDrag&DropNotebook普适性灵活性传统表单式的Self-Service BIDashboardDrag&DropNotebook普适性灵活性长尾用户同时需要较高的普适性和灵活性相同语义的指标在不同的产品口径不一致Self
2、-Service BI新范式DashboardDrag Drop NotebookPilotCopilotForm-based BIChat-based BISemantic Layer/Headless BIDatabaseHeadless BIChat BIFromTo技术概念(表/字段)业务术语(指标/维度/标签)自然语言SQL语言二、Text-to-SQL技术概览Text-to-SQL发展路线Rule-basedTraining-basedPrompting-based201720222023以后2017以前EncoderNetworkDecoderNetworkquestion+sc
3、hemahidden vectorSQLAnnotatorRankerquestionSQLIndexschemaParserLLMquestion+schema+exampleSQLText-to-SQL发展路线NaLIR 2014Athena 2016Analyza 2017SQLizer 2017Seq2SQL 2017TypeSQL 2018 IRNet 2019SLSQL 2020NatSQL 2021DIN-SQL 2023C3SQL 2023DAIL-SQL 2023ACT-SQL 2023CRUSH4SQL 2023Rule-basedTraining-basedPrompti
4、ng-based201720222023以后2017以前Athena:Ontology-drivenSLSQL:Schema LinkingTypeSQL:Sketch-based slot filingNatSQL:Intermediate RepresentationDin-SQL:Decomposed StepsACT-SQL:Automatic Chain-of-ThoughtC3-SQL:Execution-based Self-Consistency三、SuperSonic建设实践当前基于LLM的Text-to-SQL主要挑战 Reliabilitycomplexity of SQ
5、L syntaxhallucination of schema element Efficiencyinference timetoken costSuperSonic设计思路:举个栗子LLMNLQSQL 超音数按部门统计访问次数,且如果访问次数超过1000则计为0SuperSonic设计思路:降低LLM生成复杂度LLMNLQSQL 超音数按部门统计访问次数SemanticLayerS2SQL类型业务名称技术口径指标访问次数case pv1000 then 0维度用户IDuser_id类型业务名称技术口径维度用户IDuser_id维度部门depSemantic Model:S2埋点Semant
6、ic Model:S2用户NLQS2SQL超音数按部门统计访问次数LLMSemanticLayerSchemaMapperSemanticCorrector维度:部门名=内容库指标=访问次数S2SQLcontext类型业务名称技术口径指标访问次数case pv1000 then 0维度用户IDuser_id类型业务名称技术口径维度用户IDuser_id维度部门depSemantic Model:S2埋点Semantic Model:S2用户SuperSonic设计思路:增强LLM生成可靠性LLMSemanticLayerSchemaMapperSemanticCorrector类型业务名称技术
7、口径指标访问次数case pv1000 then 0维度用户IDuser_id类型业务名称技术口径维度用户IDuser_id维度部门depSemantic Model:S2埋点Semantic Model:S2用户SuperSonic设计思路:基于Rule解析提升效率RuleNLQ超音数按部门统计访问次数S2SQL维度:部门名=内容库指标=访问次数contextSuperSonic开源项目通过工程化组件对于LLM的增强,提升Text-to-SQL可靠性新兴Chat-based和传统Form-based交互相结合,提升数据分析敏捷性通过语义层进行统一建模、管理及消费,提升数据口径一致性https:/ as PilotChatbot as Co-pilot四、未来展望近期计划尝试与适配更多的大模型探索大模型语义解析多轮对话探索大模型生成数据分析结论结合结构化与非结构化数据远期定位面向统一分析的实时数仓指标标签聊天对话指标看板标签圈选SuperSonic:BI新范式下的统一自助分析平台建模治理发现查询谢谢 谢谢 观观 看THANKS