《AIGC与因果推断的双向赋能.pdf》由会员分享,可在线阅读,更多相关《AIGC与因果推断的双向赋能.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、AIGC与因果推断的双向赋能演讲人:何刚 北京九章云极科技有限公司 AI架构师2Our VisionOur Mission3YLearn因果学习交流群九章云极DataCanvas公众号https:/ Generated Content”,又称生成式AI,意为人工智能生成内容。例如AI文本续写,文字转图像的AI图、AI主持人等,都属于AIGC的应用。合成数据是通过计算机程序或人工智能生成的数据,企业可以通过使用合成数据填补潜在或边缘的使用场景、节省数据采集成本及满足隐私要求。AIGCCausal InferenceSynthetic Data6Gartner提出了合成数据的趋势报告,预计到203
2、0年,人工智能、机器学习模型中的合成数据将完全取代真实数据。下图清楚地解释了合成数据日益增长的重要性。7对企业来说,在现实中获取高质量(干净、标注好、无偏)的数据通常存在很大的挑战。生成数据可以帮助我们应对这一挑战,以便更快、更准确和更可靠的实现AI能力应用。随着数据隐私问题的不断增加,开发数据合成方法变得越来越重要,这种方法可以保护敏感信息,同时保留原始数据的统计财产。其中一种方法是使用人工智能和数据合成类的生成模型。本次分享,将集中在专门用于结构化数据合成的用途。必须确保匿名或者必须保护隐私的数据的场景,比如金融、医疗数据的使用数据隐私部分业务场景数据获取的成本非常高,比如线下活动的推荐实
3、施情况等成本约束对真实数据的增强的应用面比较广泛,比如在制造业图像样本增强等场景对新兴AI算法没有储备的特征进行补充论证数据增强新兴AI用例数据,是数智化的生命线8Data-driven Approaches Process-driven Data Generation GANsVAEBayesian NetworksML-BasedAgent-Based Modeling/Simulations(ABM)Discrete-event SimulationsNumerical SimulationsMonte Carlo Simulations9定义:ABM是一种用来模拟具有自主意识的智能体的
4、行动和相互作用的计算模型,评估智能体在系统整体中的作用。分析宏观涌现的微观原因和推演已知微观的未知宏观是ABM的两个主要任务目标。别名:ABM有许多别名,在大多数社会科学中被称为基于代理的建模ABM(Agent-Based Modeling),在计算机科学中被称作多智能体系统MAS(Multi-Agent Systems),在生态学中被称作基于个体的建模IBM(Individual-Based Modeling)。AI Generated ContentCarrierStructured data Synthesis10复杂系统的一个显著特征是它们能够表现出复杂的涌现属性,ABM的核心任务之一
5、是分析涌现的潜在原因。今天的市场和组织是复杂系统(CS)。复杂系统由彼此和环境相互作用的异构元素组成,在多个空间和时间尺度上产生相互依赖性,难以理解、预测和控制。ABM 提供了一个鲁棒而严谨的框架来详细描述系统,其以业务经验假设为起点的模式,具有非常强的可解释性。仿真性涌现属性解释性1112Causal Discovery因果发现Identification of Causal Quantities因果量的识别Causal Effect Estimation因果效应估计Policy Learning策略学习Counterfactual Inference反事实推断XWyZu13干预策略实施后,
6、我们仅能观测到实施状态下的结果,未干预状态下的潜在结果是无法观测的。无法观测到的潜在结果,通常称为反事实结果(counterfactual outcome)。反事实问题因果效应衡量举一个生活中的例子,商店给客户发优惠券,假如我们给一位用户发了优惠券我们就只能知道这位用户收到优惠券的反应,我们无法知道他没有收到优惠券的反应。随机化实验是因果推断的黄金标准(Rubin,2008;Imbens and Wooldridge,2009;Angrist and Pischke,2009),是观测研究的基础。受限于反事实状态无法观测,就无法采用MSE等评价进行离线评价,替代性的,我们选用AUUC作为离线评
7、价指标,AUUC是序指标,使用模型预估出的个体因果效应排序,评价这个序的优劣。14反事实可获取仿真性特征完整性宏观干预微观干预模仿A/B Test优质特性可控制性1 反事实数据2 预置因果关系3 全部的特征4 时序类反事实数据AgentAgentAgentDataSets15SaversCompanysLoanInterBank LoanParameters:MRRCARRisk Free RateDataSetsMRR=0.08CAR=0.06Rist Free Rate=0.03MRR=0.08CAR=0.08Rist Free Rate=0.03MRR=0.08CAR=0.01Rist
8、Free Rate=0.025.EmergentBanksEnvironmentSIMULATION&CALIBRATIONBANK SYSTEM ON ABMDeposit/Withdraw16算法发现的因果关系预置因果关系优势a)成本可控b)预置的因果关系c)完整的特征,不存在不可观测特征应用a)验证因果学习算法精度b)寻找因果发现算法的最佳组合c)研发新的因果发现算法17无反事实样本,评价指标具有较强的局限性:A/B Test 成本高昂,仅能衡量群体因果效应,无法衡量个体因果效应受限反事实问题,常见的评价指标不可用,经常采用AUUC、QINI等指标进行离线评价基于反事实样本的评价指标优势
9、:采用MSE等常见评价指标,验证算法的有效性论证算法个体治疗效应的精度论证A/B Test、AUUC、QINI等方法的有效性可控的构造有/无偏样本Model18Train DataSetEvaluate DataSetEvaluate Metricstrain datatest dataAuuc,Gini,RLosstrain datatest data with counterfactual Auuc,Gini,RLoss,Rmse.train data with counterfactualtest data with counterfactual Auuc,Gini,RLoss,Rmse
10、.提供完备的数据基础,下表以因果效应估计举例:数据具有更加广泛的适用性,适用各个领域算法Causal Discovery,Causal effects estimations,IV Model,.Bayesian networkMachine LearningDeep Learning1920监管要求可能会阻止公司内不同业务线之间的数据共享。或者,团队可能希望在获得相关批准之前开始使用数据。研究某些事件(例如市场闪电崩盘、经济衰退、新的行为机制)的历史数据数量有限,这使得研究潜在机制非常具有挑战性。在各种此类设置中,拥有用于测试策略和推论的反事实数据很有用。对于欺诈检测等用例,数据集通常高度不
11、平衡,传统的机器学习和异常检测技术往往会失败。具有真实性的合成数据以及适当的数据插补技术提供了一种有前途的方法来应对这一挑战。大规模高级机器学习(例如深度学习)通常使用云服务进行,需要计算资源和大量训练数据。由于多种原因,机构可能无法将训练数据上传到这些服务。合成数据可用于训练模型,然后可以将其带回本地在真实数据上工作。通过在机构之间和研究团体内部共享数据,可以为金融机构面临的技术问题找到更好的解决方案。合成数据的共享允许金融机构以满足其数据共享限制的方式执行此操作。银行外呼运营团队,关注团队规模、小组人数、员工流失率等因素。可以采用ABM模型与校准的方式,针对运营管理的薄弱环节进行原因分析,
12、提出改进建议,进行降本增效。内部数据使用限制应对填补缺乏历史数据解决类别不均衡问题训练高级机器学习模型易于数据共享研究宏观涌现分析21分析任务研究未知微观解释已知的宏观推演任务利用已知微观推演未知宏观Group of agentsAggregated behaviors(Emergence)Agent#1AIGCAgent#nAIGCMicro-levelMacro-levelinteractionMicro interventionMacro interventionWorld22将因果发现、机器学习、敏感性分析技术相结合,分析基于多智能体模型中的涌现。1涌现分析组合因果发现算法生成因果图,
13、该因果图表示模型参数和模型的输出变量之间的因果关系。然后利用这个因果图更好地理解模型的涌现。2因果图机器学习和敏感性分析技术,因为综合了不同方法的分析结果,可以对涌现行为做出更丰富的解释。3方法融合各种方法有时会给出不确定的结果,因果发现算法可以作为补充,使用这些不同的分析技术进行交叉验证。4交叉验证23过滤:使用随机参数组合使用反事实推理方法过滤参数组合,大大提高了校准效率。进化:在现有校准参数空间的基础上,使用因果效应估计生成参数组合。校准:ABM校准涉及三个计算成本高昂的步骤;运行模型、测量校准质量和定位感兴趣的参数。校准加速进化过滤242526对于给定数据集,定义各变量(如treatment,outcome等)调用 EstimatorModel 的 fit()方法进行训练,得到训练好的 EstimatorModel使用 EstimatorModel 的 estimate()方法。12327Z1Z2U1U2Z3XU2YU2X4X1X2X5YX6XX32829感谢您的观看