在自然语言处理(NLP)里,我们常常会听到两个高频词:BLEU和ROUGE。它们是评价生成式模型(比如机器翻译、文本摘要、对话生成)表现的“评分标准”。但是,很多人一听就蒙圈:“它们到底是什么意思?有什么区别?”今天,我来给你手把手讲明白。
1️⃣ BLEU:严格的字面“对错老师”
概念:BLEU 看生成句子里有多少词和参考答案完全匹配,偏向精确率。
它就像一个“严苛老师”,只认字面,不认同义替换。
举个例子
参考答案:
我 喜欢 吃 苹果
模型输出:
我 爱 吃 苹果
结合几何平均和长度惩罚,最终 BLEU ≈ 0.5
重点:只要顺序不对或者同义词替换,BLEU 分数就会下降。
2️⃣ ROUGE:宽容的覆盖率“老师”
概念:ROUGE 看参考答案里的信息有多少被生成句子覆盖,偏向召回率。
它就像一个宽容老师:只要你把重点写出来,不一定要完全一样,也能给高分。
举个例子
参考答案:
我 喜欢 吃 苹果
模型输出:
我 爱 吃 苹果
重点:ROUGE 对顺序和同义词更宽容,只要覆盖了参考答案的核心信息就行。
3️⃣ BLEU vs ROUGE:一句话总结
指标
关注点
举例说明
BLEU
精确匹配
只认“喜欢”,不认“爱”,分数会低
ROUGE
覆盖率
只要把重点覆盖到,即便说法不同,也能得分高
4️⃣ 生活化理解
想象你在考试:
所以同一句话,你可能在 BLEU 上得分低,但 ROUGE 分数很高。
5️⃣ 小结:实务中的应用
结语
BLEU 和 ROUGE 是 NLP 的“基本功”,理解它们不仅能读懂论文,也能自己评估模型效果。记住:BLEU 严格挑字面,ROUGE 宽容看覆盖。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...