1、端侧AI算法评测之实践OPPO涂勇军从事软件测试及管理工作十余年,先后从事数据通信、云计算、大数据、AI算法等相关领域测试,现任职OPPO,负责视觉理解方向算法测试。高级软件测试工程师嘉宾照片目录CONTENTS端侧算法测试特点01 测试实践与探索02 回顾与展望03 01端侧算法测试特点1.1端侧算法特点应用多算法多用户感知度高场景开放1.2端侧算法测试痛点人工智能白皮书(中国通信研究院)The-AI-Act人工智能法案(欧洲)Blueprint For An AI Bill Of Rights人工智能权力法案蓝图(美国)正义公平非歧视性多元包容透明可信可复现性可解释性DataBlack-B
2、ox AIAI productWhy YES?Why NOT?When YES?When NOT?How to correct an error?How to verify?Good/Bad?User偏见成因数据偏差设计偏差使用偏差数据缺失、数据不均衡关键特征忽视、设计倾斜使用环境、社会文化偏差1.3端侧算法测试能做什么?AI算法测试算法测试传统测试传统测试需求聚焦于场景聚焦于功能实现测试对象算法模型软件逻辑用户用户感知,关注场景效果用户使用,关注功能实现标准学术化指标居多、不贴近用户系统对用户需求和预期功能的满足度算法模型选型算法选型样本数据构建场景分布、场景特征技术探索工具/评价方法、可释
3、可信等工具/评价方法数据数据驱动的AI模型答案AI规则新数据答案数据经典程序设计规则答案02测试实践与探索2.1测试实践需求 需求分析、场景定义举例:需求调研+多模型比较 +标签价值评估 建立标签体系2.2测试实践标准主观客观用户感受用户行为算法表现+系统表现智能化感受、情感价值提升、满意度、净推荐值功能完整度、易用性、使用频次、停留时长、效率、三方应用兼容性 算法主客观指标、推理速度、一致性、功耗、稳定性、隐私安全AI算法指标优劣算法指标优劣刻画模型认知能力边界一级能力二级能力三级能力刻画不同任务的某个能力状态一级指标二级指标三级指标待评价的对象及子项任务项任务子项1任务子项n生成任务检测任
4、务分类任务分割任务评价任务感知能力知识获取能力推理能力描述能力创造性任务指标能力模型B模型A2.2测试实践标准(举例)算法层面应用层面用户层面Micro-Acc/Macro-AccMicro-Precision/Macro-PrecisionMicro-Recall/Macro-RecallMicro-F1/Macro-F1基于标签评价Subnet-AccHamming LossAccexamPrecisionexam/Recallexam/F1exam基于样本评价场景多样化分类精准度检索有效性Badcase(敏感性、数量)基于用户评价TOPn标签指标高优、高敏、高频指标正/中/负向、黑名单过
5、滤指标竞品对比基于场景评价O粉众测 面临问题和挑战1、数据规模:规模足够大,多样性丰富,覆盖用户需求和开放场景,减轻长尾、偏见问题难点:开放场景中长尾问题不可避免,不同视角会有不同维度的数据长尾出现。难点:特征漂移大部分由数据源导致,线上/线下数据特征差异分析。2、数据质量:多源数据的融合,存在数据特征分布漂移、标签缺失、概念变迁等问题3、迭代效率:如何在开放场景下高效的测试,快速进行问题溯源及问题响应等2.3测试实践数据2.3测试实践数据 数据集迭代沉淀数据新增数据多项目数据源整合人脸、标签、行为、文字等开放场景数据补充人脸、标签、行为、文字等特征分析场景知识提炼算法辅助多模型、大模型、数据
6、闭环数据探索用户场景挖掘算法辅助监督/无监督、数据闭环表征学习聚类分析场景建模多模态(V-L)领域专家模型新类发现主动学习知识/概念库图-文/图-图检索半监督方法工具多源数据周期更新原子能力子集真实/模拟 用户相册子集多个复合能力子集持续扩充的难例集用户场景分布下的规模化测试数据池功能满足传播价值覆盖度大规模特征分布合理开放场景真实数据技术前沿算法研发角度产品功能、用户需求角度大模型图-文多模态可解释性用户场景情感满足情感化个性化结构化 数据构建视角绿色:训练/测试数据分布 蓝色:用户数据分布2.4测试实践工具数据平台前端入口数据集制作选择被测算法测试集GT集算法服务客观评测主观评测客观数据汇
7、集主观数据汇集DBTable1性能测试真机压测云端端算法竞品算法终端+算法SDK其他算法数据分析配置模板数据收集数据管理原始数据原子能力集属性读取基本属性特征向量粗筛数据集分层逻辑标注上传多版本/竞品对比主客观一致性评估算法指标评估性能报告压测报告历史数据沉淀badcase分析数据/报表下载智能分析结果可视化2.4测试实践工具(标注)预标注+人工标注2.4测试实践工具(评测)客观、主观评测工具2.4测试实践工具(badcase分析)badcase审核+单张/批量特征聚类2.5测试实践探索(数据增广)增广方法:缩放、旋转、对比度、色度、亮度、锐度、高斯滤波、中值滤波、均值滤波、天气滤镜寻找合适变
8、换参数 亮度变换举例:使用LPIPS和SSIM来约束参数选择阈值方案原图亮度50,170,SSIM阈值0.9 LPIPS阈值0.25原图亮度50且参数1,SSIM阈值0.55,LPIPS阈值0.25原图亮度50且参数1,SSIM阈值0.9,LPIPS阈值0.25原图亮度170且参数1,SSIM阈值0.4,LPIPS阈值0.25原图亮度170且参数1,SSIM阈值0.9,LPIPS阈值0.25将图片变暗时,参数0.8较为合适将图片变亮时,参数1.3较为合适2.5测试实践探索(充分性)通过无标注方式提高标签/标签组合覆盖率,并找到测试停止条件自信率:正确率:鲁棒性:ASE2023:Automate
9、d Black-Box Testing of Multi-Label Image Classification Systems两个理论基础:组合测试理论+蜕变测试理论三个指标设置:自信率、正确率、鲁棒性2.5测试实践探索(充分性)ASE2023:Automated Black-Box Testing of Multi-Label Image Classification Systems从第200张图开始:图片随机输入:CIRCORRROBU随数据集增大,样本多样性增大数据集足够大,测试样本多样性基本覆盖全面数据集足够大,测试样本多样性趋于稳定基于图库进行测试,假设图库图片多样性足够丰富统计猫输
10、入输出人工比对人工图片库2.5测试实践探索(弱监督)ICCV2023:Contrastive Automated Model Evaluation通过少量标注来监督大量无标注数据测试03回顾与展望3回顾与展望端侧算法:算法多样、场景开放、用户感知度高、不确定性高数据构建:贴近用户、覆盖全面、减少长尾和数据偏见评价指标:分层分级、关注用户智能化感受和情感价值提升评测工具:关注数据构建效率、评测效率,增强执行规范性方法探索:数据增广、测试充分性、算法鲁棒性等数据成熟度:什么样的数据是足够的、合理的?主客观一致性:客观指标怎么和用户体验一致?生成式AI:AIGC算法怎么测?怎么评价?AI伦理问题:透明可信、公平正义、合法依规等感谢聆听关注QECon公众号