《7-4 文件翻译中的格式解析和译文回填的研究与实践.pdf》由会员分享,可在线阅读,更多相关《7-4 文件翻译中的格式解析和译文回填的研究与实践.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、文件翻译中格式解析与译文回填的研究与实践陈件 上海一者信息科技有限公司 CTO|01背景和难点分析文件解析和格式回填的背景文件格式解析与回填的难点02一般过程文件格式解析与回填的一般过程04应用效果举例格式回填在YiCAT中实现的效果目录CONTENT|03AI辅助格式回填AI 在文件解析与回填的运用01背景和难点分析分文件翻译中为什么需要格式解析与回填文件格式解析与回填的难点|背景分析文件翻译中由于面对纷繁复杂和多样的文件格式,除了需要将文件的文字提取外,为了翻译后能还原原文的样式,还需要记录原文的格式骨架信息。|文本抽取与回填难点译文回填要求记住原文回填的位置,尽可能的还原原文的格式信息|
2、多格式CAT软件支持的文件格式几十种甚至上百种doc、docx、pdf、markdown等多版本不同格式版本差异可能非常大如doc和docx个性化配置CAT软件需要支持多种用户个性化配置文件预览支持对各种格式类型的原文预览和译文预览,实时交互。文档格式复杂部分文件中可能嵌套图表甚至其他格式的文件02一般过程文件格式解析与回填的一般过程|文件格式分析-以pptx举例pptx是一种openxml格式的演示文稿文件,本身是一种压缩包,重命名成zip并解压后得到xml文件夹|文件格式分析-以pptx举例|文件格式分析-TAG是如何产生的?为了保证翻译的内容语义信息完整,翻译的更加准确,引入TAG机制,
3、文字转换完成后需要译员按照原文TAG位置进行填充|文件格式分析-TAG可视化为了提高用户体验,将TAG的样式内容通过可视化的方式展现,更直观,对译员翻译时体验更友好。|传统解析和回填流程不借助中间文件,通过标记元素位置信息进行回填|解析文件FilterSegment解析文件Filter导入导出人工翻译机器翻译导出译文tuId主流解析和回填流程主流解析和回填流程需要将原文件解析xliff标准格式,翻译过程通过填充xliff文件中的译文内容,最后再将xliff导出成译文|解析文件FilterXLIFF解析文件Filter导入导出人工翻译机器翻译导出译文SegmenttuId文件格式分析-什么是XL
4、IFF英文全称:XML Localization Interchange File Format中文全称:XML本地化数据交换格式目标:制定可扩展的多语言本地化数据交换的规范,允许任何软件开发商根据该规范创建单一数据交换格式的文件,这些单一数据交换格式的文件能够向任何本地化服务商提交,并且能够被本地化服务商易于理解和有效处理。XLIFF是用于翻译XML格式文件的标准。定义将各种XML文件的内容和格式分离,实现翻译的可理解和可重用。更详细的概念说明请参考百度百科:http:/ 在文件解析与回填的运用|格式回填方案分析|自动译文回填的一般步骤|词对齐实现流程分析使用BPE算法对不同语言文本进行分词
5、,比如原文:“我爱中国”和译文:“I love China”,分词后分别得到“我”,“爱”,“中”,“国”和“I”,“love”,“China“。|词对齐实现流程分析根据分词结果,加载mBERT预训练模型,使用multi-head和self-attention输出12层隐藏向量,选取最后一层隐藏向量作为词向量.|词对齐实现流程分析相似度包括语义相似度和位置相似度(如公式1),语义相似度为原文词向量和译文词向量的余弦距离(如公式2),位置相似度为原文的词位置和译文的词位置的相对距离(如公式3)。|其中,S_ij表示原文第i个词向量和译文第j个词向量的相似度,SEM_ij表示原文第i个词向量和译文
6、第j个词向量的语义相似度,POS_ij表示原文第i个词向量和译文第j个词向量的位置相似度,v_i表示原文第i个词向量,v_j表示译文第j个词向量,l_s表示原文的词数,l_t表示译文的词数,为超参数,限制位置相似度的权重。词对齐实现流程分析原文词向量和译文词向量使用双向最优匹配,即当原文第i个词向量的相似度最高是译文第j个词向量,同时译文第j个词向量的相似度最高是原文第i个词向量时,第i个原文词向量与第j个译文词向量匹配(如公式4)。|双向最优匹配无法一次性将所有的原文单词和译文单词匹配,如图4中,“中”和“国”相似度最高是“China”,但是“China”相似度最高是“国”,其次是“中”,根据双向最优匹配原则,“国”和“China”形成匹配,“中”没有匹配。为了匹配剩下的词向量,需要在每一次双向最优匹配后更新相似度矩阵S_ij(如公式5),将已匹配的词对(M_ij=1)的相似度变为0(S_ij=0),进行下一次双向最优匹配,不断重复公式4和公式5的操作,直到所有原文和译文单词匹配词对齐实现流程分析|04应用效果举例格式回填在YiCAT中实现的效果|YiCAT当前支持的格式|YiCAT中文件可设置选项|YiCAT译文格式自动填充举例|YiCAT译文格式自动填充举例ADD RELATED TITLE WORDS|YiCAT译文格式自动填充举例|非常感谢您的观看|