第1步:别拿金句测,拿真实文本测
很多人做MT的目的测评,上来就丢一句影视台词或网络热梗,然后评价“很生硬”。这其实测不出什么。机器翻译真正常用在说明书、邮件、产品页、客服话术、技术文档里,所以测试材料也要从这些地方选。
我的做法是准备三类样本:100字以内短句、300字左右普通段落、一段带表格或编号的操作说明。这样能看出它处理短句、上下文和格式信息的水平。
MT的目的测评不能只看一句话翻得漂不漂亮,更要看它在真实工作里会不会掉链子。我踩过的坑主要集中在术语漂移、长句误解、语气失真和数字漏改。按流程测一遍,基本能看出它适合帮忙,还是只适合参考。
很多人做MT的目的测评,上来就丢一句影视台词或网络热梗,然后评价“很生硬”。这其实测不出什么。机器翻译真正常用在说明书、邮件、产品页、客服话术、技术文档里,所以测试材料也要从这些地方选。
我的做法是准备三类样本:100字以内短句、300字左右普通段落、一段带表格或编号的操作说明。这样能看出它处理短句、上下文和格式信息的水平。
术语是MT最容易假装正确的地方。比如“workspace”有时该翻“工作区”,有时该翻“工作空间”;“campaign”在广告后台里是“广告系列”,不是普通的“活动”。如果术语错了,句子再顺也没用。
测评时可以列10个核心词,看看同一个词在不同段落里是否保持一致。只要一篇文档里account一会儿是账户、一会儿是账号、一会儿是客户,后期返工量就会飙升。
我见过最危险的翻车,不是机器把句子翻得难看,而是把条件关系翻反。英文里的unless、except、not recommended unless,中文里的“并非不能”“不得不”,都很容易让译文读起来像那么回事,实际意思偏了。
做MT的目的测评时,专门挑两三句带条件、转折、否定的句子。看它有没有漏掉“不”、有没有把限制条件提前或吞掉。这个环节比看流畅度重要得多。
数字错误很隐蔽,也最要命。比如5 MB翻成5兆问题不大,但5 miles翻成5米就是事故。日期格式、货币符号、百分比、版本号,也都要单独看。机器翻译通常不会“故意”改数字,但排版转换时可能漏空格、吞符号。
专有名词也别完全相信。产品名、公司名、人名、API字段名,能不翻就不翻。测评时看它是否把变量名、按钮名、路径名乱翻,基本能判断它适不适合技术文档。
我不太建议给MT一个笼统的8分或9分,因为不同场景差别太大。内部阅读可能够用,客户邮件需要改,法律文本只能辅助理解。测评结论最好写成“适合什么、不适合什么、需要人工检查什么”。
最实用的判断标准是返工时间。如果机器译文修改时间超过手翻的70%,那它就不算省事;如果能把初稿时间压到原来的三分之一,再加人工审校,它就值得放进流程。
优先看术语一致性、长句理解、否定条件、数字单位、专有名词保护。流畅度要看,但不能排第一。
模型训练数据、上下文长度、术语处理方式都不同。技术文档可能A工具好,营销文案可能B工具顺,所以要用自己的真实文本测。