BLEU分数 阿里国际与上海人工智能实验室联合发布首个应用型AI翻译评测榜单

当越来越多的AI翻译大模型走向应用落地,如何从使用效果来全面评价AI翻译水平,成为业界的新命题。

近日,首个应用型AI翻译测评榜单在上线,与传统的翻译测评体系相比,增加了幻觉率、文化禁忌词、敬语规范等指标,首次针对行业的细分领域构建评测数据和评测方法。这些指标均来自真实场景的使用反馈,由此来测评大模型是否符合大规模应用的标准。

传统的翻译测评维度主要关注通用质量(如BLEU、COMET),而大模型时代翻译面临幻觉等更多问题。随着AI技术的发展,业内也对大模型翻译效果有了更高的要求,比如要符合不同地区的文化特性、能体现不同行业的语言特色等。

为此,阿里国际的AI 团队联合上海人工智能实验室、北京语言大学一起,构建了更全面、最新的评测标准和规范,包括:

例如,电商场景下的用户投诉,通常与敬语、禁忌语等相关,这些翻译结果从字面意思看无误,但会直接影响到对话人的体验,应该被纳入到测评的范围中。

为什么是阿里国际推出了AI翻译领域的首个应用型测评榜单?阿里国际旗下有、、、及Daraz等电商业务,覆盖全球200多个国家和地区,多语言翻译是助力业务发展的重要一环。去年10月,阿里国际的AI 团队发布了首个大规模商用的翻译大模型Marco MT,其效果赶超、DeepL等头部AI翻译工具。Marco MT的日均调用量6亿次,是电商领域使用量最大的翻译大模型。

基于Marco MT在全球市场的用户反馈,阿里国际推出了此次的测评榜单,并将的测评方法进行了开源,希望借此推动业界共建新的大模型标准。目前,已发布了首期测评结果,欢迎更多的AI翻译机构参与打榜。

根据公开信息,2023年3月,阿里国际成立了AI ,基于全球化电商场景探索AI技术。现在,阿里国际的所有电商平台均已广泛应用AI能力,已服务了超50万卖家,形成了以服务中小企业出海为核心,覆盖全球多元市场、多种电商模式的规模级AI应用。

今年以来,阿里国际持续加大对AI人才的招募,在最近启动的2026届校招中,80%为AI岗位,包括AI算法、研发、AI产品经理等。

附测评网址:

© 版权声明

相关文章

暂无评论

none
暂无评论...