《AI多媒体技术在内容审核场景实践探索_马金龙.pdf》由会员分享,可在线阅读,更多相关《AI多媒体技术在内容审核场景实践探索_马金龙.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、AI多媒体技术在内容审核场景实践探索马金龙 趣丸科技(TT语音)马金龙 多年媒体算法开发经验,涉及音视频图像文本,负责过音频前后端处理,弱网优化,音视频质量提升,智能内容安全审核“T网”,内容理解“T悟”等大型项目。曾作为“灵声讯”创始人,参与智能媒体技术自媒体运营和推广。个人介绍内容审核目前现状与挑战01AI多媒体技术实践之路02智能内容审核平台案例03AIGC内容风控实践04未来展望051.内容审核目前现状与挑战政府监管越来越严用户内容层出不穷违规种类繁杂AIGC内容不可控现状挑战【实时性】需要紧跟政府管控要求【准确性】对花样变体不漏杀不误杀【多样性】违规种类需不同算法解决【未知性】AIG
2、C生成内容不确定且存在知识“幻觉”2.AI多媒体技术实践之路自建 OR 第三方?具备数据血源追踪、问题实时监控、技术辅助运营等风控能力可管可控极速响应生态保障针对安全,时效等方面推出高响应审核,让内容审核安全高效通过机审结果多样化处置、账号违规处置等多种手段,保障平台生态安全高效定制推出特殊时期/突发事件的相关定制化,快速响应国家政府的紧急要求2.AI多媒体技术实践之路自建优势:T网 是一个通过人工智能的算法打造一站式内容安全机器审核的平台,帮助公司审核团队实现语音,文本,图像,小视频等风险管控的能力。对于此项目的目的可总结如下:贯彻国家网信办有关网络内容安全的各项规定低成本高效率的加强内容风
3、险管控构建智能审核技术护城河,为公司内容生态保驾护航探索内容审核新方法,践行公司的社会责任2.AI多媒体技术实践之路2.1 语音识别2.2 NLP文本审核2.3 多模态识别2.4 音频事件检测2.5 小语种识别2.6 歌曲识别2.7 声纹识别2.8 违规图像识别2.1 ASR-技术方案技术目标用户产生的语音数据输入ASR模型,模型输出该语音的文字内容,以供下一环节NLP检查是否包含违规词,或违规内容。模型总体逻辑使用深度学习模型Transformer/Conformer(如图中Shared Encoder)提取输入音频中的特征使用CTC解码得到若干候选文本。图1.T网-ASR端对端方案2.1
4、ASR架构Efficient ConformerConvolution neural networks和transformers models组合Efficient Conformer设计结合量化剪枝和蒸馏技术,压缩模型大小提供CPU和GPU,支持高吞吐量识别图3.ASR中Efficient conformer技术方案图2.T网-ASR支持的功能2.1 ASR-效果图4 T网-ASR优化后的推理速度图5.ASR 测试报告(CER)和模型大小2.2 NLP算法总体框架图6.T网-NLP总体框架NLP算法模型:Prompt 算法文本表情复杂表示的多模态识别算法关键词挖掘算法Bert 算法AIGC
5、语料生成算法Fasttext 算法2.2 NLP内容审核的困难与挑战变体关键词的多样化文字与表情包的结合的复杂表达文字与字母或字母缩写结合的复杂表达特定场景语料不足与稀疏性特定关键词词的隐晦表达正常词与关键词相同,但不同上下文上语义不同纯文本审核面临的问题与挑战:构建文本表情字母多模态识别系统异常关键词大数据监测系统多层次语义分析系统构建变体关键词挖掘系统AIGC语料生成系统我们的成功案例:2.2 NLP内容审核-效果呈现图7.NLP关键词挖掘示意图图8.NLP文本审核效果违规标签精确率辱骂94.45%色情95.03%涉政91.31%广告90.96%违禁92.98%2.2 文本未成年人识别关键
6、词匹配分析框架,支持多种匹配方式、多种过滤条件,并支持自定义特殊标记,及支持特定动作行为,将未成年人识别实现模组化的流程分析。未成年识别精确率99%+;图9.T网文本未成年人审核技术框架模态模态2.3 多模态算法原理项目背景单模态审核特征不全面,多模态结合语气和语义信息可提高处罚有效率。人工审核量级大,需要对不同类型的违规进行灵活处置。建模算法Transformer 跨模态多头注意力机制;随机森林;图10.Transformer 跨模态多头注意力机制图11.随机森林2.3 多模态高准召回模型指标多模态算法上线处罚有效率为99%+;如右图,每日占总机审违规样本约17%;模型价值提高对违规样本的召
7、回,减少单模态的漏召;提供高准标签运用在灵活处置:a.提高处罚响应速度;b.提升人工审核效率;图12.多模态辱骂命中数量及占比2.4 声音事件检测(Sound Event Detection)检测的声音事件:审核类娇喘,炸房,怒骂普通标签 BRaSS背景音乐(BGM,B)说唱(Rap,Ra)说话(Speech,S)唱歌(Sing,S)模型价值完善对声音类违规的审核能力。音频类型分流,降低后续模型成本。语音直播趋势分析。图13.声音事件检测2.5 语种识别项目背景:线上特定语种管控方案流程:模型效果:利用音频预训练hubert模型的特征解析功能,结合TT语音线上直播数据和部分开源数据集进行模型f
8、ine-tune,从而针对特定语种等进行识别。针对特定语种的测试精准率为97.58%。图14.语种识别2.6 歌曲识别方案流程:模型效果:项目背景:线上歌曲(如劣迹艺人作品等)管控将原始劣迹歌曲处理得到的指纹信息存储于歌曲指纹库,用于进行输入歌曲片段的相似度比对,并增添音频文件分析接口用于分析完整歌曲。针对劣迹艺人歌曲的识别精准度为94.16%;图15.歌曲识别2.7 声纹识别项目背景:方案流程:VAD进行语音活性检测,提取人声部分;ResNet34作为主干网络,利用线上业务数据和部分开源数据进行微调训练;利用余弦相似度计算两个声纹之间的相似性。模型效果和应用:1.特定人物声纹拦截精确率98%
9、+;人物声纹识别,针对特定的人物可以做具体管控图16.声纹识别2.8 涉黄图像识别项目背景方案流程模型效果和应用基于经典ResNet50预训练模型结构,利用线上业务数据和部分开源数据进行微调训练;同时考虑到标注成本和线上标签数据形态,结合多任务图像识别算法更改模型结构进行学习,从而实现较为精准地识别涉黄图像;在TT语音下,机审拦截内容识别准确率为93.15%;应用于TT语音和AIGC图片场景;线上色情、性感类涉黄图像识别图17.涉黄图像识别主干模型分支任务1分支任务2输入图片违规粗粒度标签违规细粒度标签图18.T网架构图3.智能内容审核平台案例-架构图3.智能内容审核平台案例-流程图图19.T
10、网审核流程图3.智能内容审核平台-微服务架构T网架构处理能力最大并发语音流可线性扩展Pod个数微服务T网系统可靠性rtpschedulerschedulerschedulerasrnlptranscode.共x种entrance自研任务编排系统(AI中台一部分),统一算力管理和容灾拆分算法服务,细粒度的算力伸缩和统一调度支持多可用区部署图20.T网微服务架构3.智能内容审核平台-多任务调度方案目的:实现可动态配置的媒体算法加工流水线,满足任意租户的不同审核需求TT.UKI唱鸭A-streamingsedtranscodeasrnlpB-streamingBRasstranscodeasrnlp
11、调度层算法层A-streaming-ttC-streaming-changyaB-streaming-ukisedasrnlp拉流图21.T网多任务调度方案3.智能内容审核平台-网管理后台图22.T网-审核后台图23.T网-BI报表展示3.智能内容审核平台-BI报表4.AIGC内容风控实践图24.AIGC平台4.AIGC内容风控实践-文生文拦截图25.AIGC-文生文审核针对文生文场景,利用关键词+语义理解审核技术,对输入和输出进行审核4.AIGC内容风控实践-文生图审核针对文生图场景,利用AI图像涉政&涉黄审核技术,降低风控风险对涉黄类的裸露、行为、性感等进行拦截存在的问题:生成图不可控、不
12、合理图26.AIGC文生图审核对涉政内容进行拦截不合规图片5.未来展望利用LLM能力强化语义理解,提升审核准确率和数据收集速度用户对抗下的精细化算法模型,强化多模态复杂任务决策审核平台的langchain+LLM工作流介入,打通舆情监控到内审决策全链路AIGC内容用传统算法AIGC方法做审核趣丸科技成立于2014年,是一家集兴趣社交及电子竞技等业务于一体的创新型科技企业,旗下有TT语音、麦可及TTChat等多款兴趣社交产品。核心产品TT语音是国内领先的兴趣社交平台,累计注册用户已超2亿,并成为LPL、KPL、PEL等五大头部电竞职业赛事官方合作伙伴。趣丸科技利用多年聚焦兴趣社交领域的深厚积累为核心优势,积极瞄准全球数字技术基础前沿领域和关键核心技术的研发和创新。企业介绍趣丸科技的技术创新探索分享平台与你一起用科技创造未来(扫码关注获得本场演讲PPT)AI多媒体技术在内容审核场景实践探索(主讲微信二维码)