上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

7-6 微信图片翻译实践.pdf

编号:102278 PDF 67页 8.41MB 下载积分:VIP专享
下载报告请您先登录!

7-6 微信图片翻译实践.pdf

1、微信图片翻译实践牛力强 腾讯微信 高级研究员|01微信翻译介绍02微信图片翻译目录CONTENT|03图片内容理解04图文内容生成|01微信翻译介绍 微信翻译及应用场景微信翻译:微信AI团队打造翻译服务|微信翻译12亿微信用户都在用微信翻译:微信AI团队打造翻译服务|微信翻译12亿微信用户都在用微信翻译:微信AI团队打造翻译服务|微信翻译12亿微信用户都在用支持18种语言(60+方向)日均翻译百亿字符的多语言机器翻译引擎微信翻译应用场景:聊天、朋友圈、搜一搜|微信翻译12亿微信用户都在用微信翻译应用场景:扫一扫、网页、边写边译|微信翻译12亿微信用户都在用微信翻译应用场景:QQ音乐、邮箱、企业

2、微信|微信翻译12亿微信用户都在用|02微信图片翻译 图片翻译引擎构建微信图片翻译|微信翻译12亿微信用户都在用 长按图片、点击翻译、得到译图-目标语言默认为系统设置语言 应用场景-扫一扫、聊天-朋友圈、公众号文章微信图片翻译|微信翻译12亿微信用户都在用 长按图片、点击翻译、得到译图-目标语言默认为系统设置语言 应用场景-扫一扫、聊天-朋友圈、公众号文章微信图片翻译面临的挑战|微信翻译12亿微信用户都在用 图片复杂多样-英中日韩泰等10+种语言-文字内容多样-排版结构复杂微信图片翻译面临的挑战|微信翻译12亿微信用户都在用 图片复杂多样-英中日韩泰等10+种语言-文字内容多样-排版结构复杂

3、追求用户体验-内容完整&翻译准确-译图忠实于原图-翻译速度快图片翻译如何建模?|微信翻译12亿微信用户都在用?原图译图y图片翻译如何建模?|微信翻译12亿微信用户都在用生成模型:g(y|)?原图译图y图片翻译如何建模?|微信翻译12亿微信用户都在用优点只需一个end2end模型生成模型:g(y|)难点g高维、多模态、分布未知缺少end2end数据,训练难?原图译图y图片翻译如何建模?|微信翻译12亿微信用户都在用优点只需一个end2end模型生成模型:g(y|)难点g高维、多模态、分布未知缺少end2end数据,训练难?变分模型:q y p(|)分两步:encoder:p(|)和 decode

4、r:q y 原图译图y图片翻译如何建模?|微信翻译12亿微信用户都在用优点只需一个end2end模型生成模型:g(y|)难点g高维、多模态、分布未知缺少end2end数据,训练难?变分模型:q y p(|)分两步:encoder:p(|)和 decoder:q y 变量:zp(|)q y 变量z 是 原图 的内容理解如语种、文字、段落、颜色等原图译图y图片翻译如何建模?|微信翻译12亿微信用户都在用优点只需一个end2end模型生成模型:g(y|)难点g高维、多模态、分布未知缺少end2end数据,训练难?p(|):图片内容理解变分模型:q y p(|)分两步:encoder:p(|)和 de

5、coder:q y q y :图片内容生成变量:zp(|)q y 变量z 是 原图 的内容理解如语种、文字、段落、颜色等原图译图y图片翻译引擎|微信翻译12亿微信用户都在用原图图片内容理解中间结果图文内容生成译图图片翻译引擎|微信翻译12亿微信用户都在用原图图片内容理解中间结果图文内容生成译图语种识别行文字块字符串文字识别中英日韩泰等段落划分文字块分布段落结构图片翻译引擎|微信翻译12亿微信用户都在用原图图片内容理解中间结果图文内容生成译图语种识别行文字块字符串文字识别中英日韩泰等段落划分文字块分布段落结构译文生成译图生成图片翻译引擎|微信翻译12亿微信用户都在用原图图片内容理解图文内容生成中

6、间结果译图图片分类ViT段落框检测扩展DBNet段落矫正BERT语种识别文字识别段落划分段落文本翻译NMT引擎图片文字擦除扩散修复译文生成译图生成文本检测识别微信OCR|03图片内容理解 语种识别 文字识别 段落划分图片内容理解(1)|微信翻译12亿微信用户都在用语种识别原图图片分类ViT中、英、日、韩、泰等 分类精度高(10+类,影响整体效果)推理速度快(前置模块影响后续处理)覆盖长尾语种(日、泰、阿拉伯语等)图片语种识别|微信翻译12亿微信用户都在用SOTA:Vision Transformer(ViT)ViT+大数据训练 超越 Inductive bias的CNN图片语种识别|微信翻译1

7、2亿微信用户都在用SOTA:Vision Transformer(ViT)ViT+大数据训练 超越 Inductive bias的CNNViT基于预训练ViT finetune:收敛快、效果好!速度慢!图片切分为固定大小patches 线性映射作为patch token embeddings 增加CLS token,position embeddings 多层Transformer encoder(MHSA)CLS token经MLP进行分类图来自ViT论文图片语种识别|微信翻译12亿微信用户都在用ViT的问题 不同于NLP中的词表token,ViT中patch token基于图片像素,Tra

8、nsformer中Self-attention是patch token数量的平方复杂度p 如1024*1024图片按16*16切分patch,patch token数量为4096图片语种识别|微信翻译12亿微信用户都在用ViT的问题 不同于NLP中的词表token,ViT中patch token基于图片像素,Transformer中Self-attention是patch token数量的平方复杂度p 如1024*1024图片按16*16切分patch,patch token数量为4096加速ViT逐层过滤patch tokens:如DynamicViT(动态删除patch tokens、训练

9、难)平方复杂度降低到线性:如SwinTransformer(层次化/local self-attention、通用性)通用Backbone组件应用到多个图像任务(分类、目标检测等),计算量减小的同时效果有损失图片语种识别|微信翻译12亿微信用户都在用语种识别ViT加速Label只需关注图片中文字部分patch 逐层合并减少patch tokens:soft 过滤图片语种识别|微信翻译12亿微信用户都在用语种识别ViT加速Label只需关注图片中文字部分patch 逐层合并减少patch tokens:soft 过滤ShrinkViT 增加Shrink Blockp 引入Conv的biasp S

10、tride控制shrink比例Conv1dShrink Block:locally merge图片语种识别|微信翻译12亿微信用户都在用加速效果 ViT base模型(depth=12):分别在3,6,9层增加Shrink Block 结果:模型参数少量增加(3M),浮点数计算量减少50%,离线预测耗时减少43%,效果提升0.2%。ModelsFLOPs#ParamsInfer Time(V100)Top-1 Acc.ViT(谷歌ICLR21)49G86M14ms88.01%SwinTransformer(微软ICCV21 Best Paper)45G87M15ms88.27%ShrinkVi

11、T(我们的结果)24G89M8ms88.23%图片大小:384*384图片内容理解(2)|微信翻译12亿微信用户都在用文字识别原图文本检测行文本字符串文字识别 兼容长文本、任意形状文本 识别速度快EPPINGTwinned withEppingen,Germany图片文字识别|微信翻译12亿微信用户都在用文本检测图片文字识别|微信翻译12亿微信用户都在用基于分割基于分割(如下图(如下图DBNet)文本检测图片文字识别|微信翻译12亿微信用户都在用文本检测CropEPPINGTwinned withEppingen,Germany文本识别基于分割基于分割(如下图(如下图DBNet)图片文字识别|

12、微信翻译12亿微信用户都在用文本检测CropEPPINGTwinned withEppingen,Germany文本识别CNN等你来CRNN(CNN+RNN+CTC)基于分割基于分割(如下图(如下图DBNet)微信微信OCR图片内容理解(3)|微信翻译12亿微信用户都在用段落划分原图视觉层面段落框检测扩展DBNet段落结构信息文本层面段落矫正BERT 段落划分要求精度高(关键模块,影响翻译、排版、用户体验)段落结构复杂、同时考虑图像视觉和文本语义信息图片段落检测|微信翻译12亿微信用户都在用相同段落的多行区域用一个框标注 图片文档版面分析p LayoutParser基于目标检测框架、4点坐标、

13、场景单一(如表格、摘要等)p LayoutLM需要token level标注,数据处理代价较大图片段落检测|微信翻译12亿微信用户都在用相同段落的多行区域用一个框标注 图片文档版面分析p LayoutParser基于目标检测框架、4点坐标、场景单一(如表格、摘要等)p LayoutLM需要token level标注,数据处理代价较大扩展文本检测 DBNet:基于分割支持多点任意形状,段落框标注数据 处理单行文本,无法适配多行段落框:需改进!图片段落检测|微信翻译12亿微信用户都在用多阶段改进DBNet原始DBNet的问题优化改进标注数据仅支持规则四边形(4点坐标)支持任意多点精确坐标段落框数据

14、增强默认向内收缩,处理邻近问题调大shrink ratio,减小向内收缩影响训练过程加权Loss调大边界(threshold map)loss权重损失函数未考虑多行文本差异(如行高、字体等)增加segmentation map,分割不同属性的段落后处理不适应段落框多行图片腐蚀消除噪音点、动态调节多边形近似参数图片段落检测|微信翻译12亿微信用户都在用多阶段改进DBNet原始DBNet的问题优化改进标注数据仅支持规则四边形(4点坐标)支持任意多点精确坐标段落框数据增强默认向内收缩,处理邻近问题调大shrink ratio,减小向内收缩影响训练过程加权Loss调大边界(threshold map)

15、loss权重损失函数未考虑多行文本差异(如行高、字体等)增加segmentation map,分割不同属性的段落后处理不适应段落框多行图片腐蚀消除噪音点、动态调节多边形近似参数oss=!#$%$&()*%!+$&+%)*%!+(,-.,#/*%!+.-0*-+(%(&#+*%!图片段落检测|微信翻译12亿微信用户都在用多阶段改进DBNet原始DBNet的问题优化改进标注数据仅支持规则四边形(4点坐标)支持任意多点精确坐标段落框数据增强默认向内收缩,处理邻近问题调大shrink ratio,减小向内收缩影响训练过程加权Loss调大边界(threshold map)loss权重损失函数未考虑多行文

16、本差异(如行高、字体等)增加segmentation map,分割不同属性的段落后处理不适应段落框多行图片腐蚀消除噪音点、动态调节多边形近似参数CAT-CONUp-sample with ratio NElement-wise SumUpN3*3 convolutionconv1/21/41/81/161/32convconv,Up 2Up2conv,Up 4conv,Up 8Up2Up2probability mapthreshold mapsegmentation mapbinary mapbinary mapDB后处理整合nnnnnnSegmentation模块整合模块oss=!#$%$

17、&()*%!+$&+%)*%!+(,-.,#/*%!+.-0*-+(%(&#+*%!图片段落检测|微信翻译12亿微信用户都在用多阶段改进DBNet原始DBNet的问题优化改进标注数据仅支持规则四边形(4点坐标)支持任意多点精确坐标段落框数据增强默认向内收缩,处理邻近问题调大shrink ratio,减小向内收缩影响训练过程加权Loss调大边界(threshold map)loss权重损失函数未考虑多行文本差异(如行高、字体等)增加segmentation map,分割不同属性的段落后处理不适应段落框多行图片腐蚀消除噪音点、动态调节多边形近似参数CAT-CONUp-sample with rat

18、io NElement-wise SumUpN3*3 convolutionconv1/21/41/81/161/32convconv,Up 2Up2conv,Up 4conv,Up 8Up2Up2probability mapthreshold mapsegmentation mapbinary mapbinary mapDB后处理整合nnnnnnSegmentation模块整合模块oss=!#$%$&()*%!+$&+%)*%!+(,-.,#/*%!+.-0*-+(%(&#+*%!优化阶段H-mean原始DBNet0.73+数据增强0.75+训练Loss0.77+后处理。0.78+分割ma

19、p0.79+多点坐标0.84图片段落检测|微信翻译12亿微信用户都在用改进DBNet对比原始DBNet改进DBNet原始DBNet改进DBNet改进DBNet纠正蓝色虚线框的错误分割,且段落框更加精确(紧贴文本区域)!图片段落检测的不足|微信翻译12亿微信用户都在用改进DBNet从图像视觉层面来划分段落。实际问题 视觉不属同一个段落,文本层面需合并段落 视觉属于同一个段落,文本层面应拆分段落图片段落检测的不足|微信翻译12亿微信用户都在用改进DBNet从图像视觉层面来划分段落。实际问题 视觉不属同一个段落,文本层面需合并段落 视觉属于同一个段落,文本层面应拆分段落需考虑文本语义来矫正段落!弥补

20、视觉层面的不足!段落文本矫正|微信翻译12亿微信用户都在用BERT分类:文本pairs是否属于同一段落 文本span拼接,BERT Encoder,CLS分类 大数据预训练p 拆分句子、段落构建十亿级训练样本段落文本矫正|微信翻译12亿微信用户都在用BERT分类:文本pairs是否属于同一段落 文本span拼接,BERT Encoder,CLS分类 大数据预训练p 拆分句子、段落构建十亿级训练样本矫正段落框 校验同一个段落框和不同段落框之间的相邻文本Label=1:合并段落Label=0:拆分段落段落文本矫正|微信翻译12亿微信用户都在用矫正效果原图图片段落BERT矫正拆分:“In-Store

21、 Pickup Sep 24”和“iPhone 13 Pro Max”段落文本矫正|微信翻译12亿微信用户都在用矫正效果原图图片段落BERT矫正原图图片段落BERT矫正拆分:“In-Store Pickup Sep 24”和“iPhone 13 Pro Max”合并:“the information contained in your CAS”和“STATEMENT below when making your student”|04图文内容生成 译文生成 译图生成图文内容生成(1)|微信翻译12亿微信用户都在用译文生成 考虑段落结构、文本语义完整、翻译准确 图片段落多、长文本、翻译快原文翻译

22、译文15:394GvI am very pleased to confirm that you have met all of our entry conditions and we have received youracceptance of our offer of a place to study atDurham University.As an overseas student,you may need to apply fora visa to study in the UK.You will need to refer tothe information contained i

23、n your CASSTATEMENT below when making your studentvisa application under the Student visa route of thePoints Based Immigration System:About your CAS Statement:PLEASE NOTE:YOUR CAS STATEMENT WILL ONLY BE PROVIDED BY EMAIL-this fullysatisfies the requirements of the Visa andImmigration Service.You are

24、 NOT required toprovide a signed copy of this statement onUniversity headed notepaper.Please use the CAS number and other informationprovided in the CAS Statement to complete yourvisa application form.You may choose to includethis email copy of your CAS Statement with yourvisa application but it is

25、not compulsory.Some UKAirports have recently requested that studentsholding a Student Visa carry a printed copy of theirCAS email with them when they arrive in the UK.It34223020515:394GV我很高兴地确认,你已经满足了我们所有的入学条件,我们已经收到你接受我们提供的一个地方在杜伦大学学习。作为海外学生,你可能需要申请英国留学签证。根据积分制移民系统的学生签证路线申请学生签证时,您需要参考以下 CAS 声明中的信息:

26、关于 CAS 声明:请注意:您的 CAS 声明将仅通过电子邮件提供-这完全符合签证及移民局的要求。你不需要在大学抬头的信纸上提供本声明的签名。请使用 CAS 号和 CAS 声明中提供的其他信息来填写签证申请表。您可选择将 CAS 声明的电子邮件副本与签证申请一并提交。但它不是强制性的。一些英国机场最近要求持有学生签证的学生在抵达英国时随身携带 CAS 电子邮件的打印件。它译文生成|微信翻译12亿微信用户都在用组合文字识别和段落划分结果,段落之间并行翻译段落文本翻译引擎NMT模型段落译文原图文字识别结果段落划分结果译文生成|微信翻译12亿微信用户都在用组合文字识别和段落划分结果,段落之间并行翻译

27、段落文本翻译引擎NMT模型段落译文原图文字识别结果段落划分结果译文生成|微信翻译12亿微信用户都在用组合文字识别和段落划分结果,段落之间并行翻译段落文本翻译引擎NMT模型段落译文原图文字识别结果段落划分结果图文内容生成(2)|微信翻译12亿微信用户都在用译图生成 擦除原图文字、恢复原背景 还原文字颜色、大小原图擦除原图文字译文贴回图片译图15:394GV我很高兴地确认,你已经满足了我们所有的入学条件,我们已经收到你接受我们提供的一个地方在杜伦大学学习。作为海外学生,你可能需要申请英国留学签证。根据积分制移民系统的学生签证路线申请学生签证时,您需要参考以下 CAS 声明中的信息:关于 CAS 声

28、明:请注意:您的 CAS 声明将仅通过电子邮件提供-这完全符合签证及移民局的要求。你不需要在大学抬头的信纸上提供本声明的签名。请使用 CAS 号和 CAS 声明中提供的其他信息来填写签证申请表。您可选择将CAS 声明的电子邮件副本与签证申请一并提交。但它不是强制性的。一些英国机场最近要求持有学生签证的学生在抵达英国时随身携带 CAS 电子邮件的打印件。它译文译图生成:擦除图片文字|微信翻译12亿微信用户都在用擦除图片文字 恢复原背景原图擦除文字背景图译图生成:擦除图片文字|微信翻译12亿微信用户都在用擦除图片文字 恢复原背景图片修复:image inpainting原图擦除文字背景图方法原理常

29、用方法传统扩散修复基于邻近点扩散快速修复INPAINT_TELEA深度生成式模型生成式模型预测像素值GAN、VAE、Diffusion等译图生成:图片修复|微信翻译12亿微信用户都在用基于GAN图片修复p修复区域按行局部分布、Conv引入较远内容(颜色混杂)、生成式模型速度慢(1s+)原图 和 mask修复图Refine CNNDeepFillV1 GeneratorCoarseCNN译图生成:图片修复|微信翻译12亿微信用户都在用扩散修复考虑邻近点梯度,一阶近似邻近区域加权、快速修复平均0.25s译图生成:图片修复|微信翻译12亿微信用户都在用扩散修复考虑邻近点梯度,一阶近似邻近区域加权、快速修复原图擦除文字图结果译图生成结果判断文字颜色自适应文字大小译文贴回图片平均0.25s微信图片翻译效果|微信翻译12亿微信用户都在用同类产品对比同类产品对比原图微信有道搜狗百度微信图片翻译效果|微信翻译12亿微信用户都在用同类产品对比同类产品对比原图微信有道搜狗原图微信百度有道搜狗百度总结|微信翻译12亿微信用户都在用微信微信翻译介绍翻译介绍图片翻译图片翻译引擎构建引擎构建图片内容理解图片内容理解语种识别、文字识别、段落划分语种识别、文字识别、段落划分图文内容生成图文内容生成译文生成、译图生成译文生成、译图生成非常感谢您的观看|微信翻译12亿微信用户都在用

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(7-6 微信图片翻译实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部