Có một thực hiện điểm BLEU bằng Python NLTK, nltk.translate.bleu_score.corpus_bleu Nhưng tôi không chắc chắn nếu nó là giống như mtevalv13a.pl script. Sự khác nhau giữa chúng là gì?
Với kết quả của hai hệ thống tóm tắt khác nhau (sys1 và sys2) và cùng một bản tóm tắt tham chiếu, tôi đã đánh giá chúng bằng cả BLEU và ROUGE. Vấn đề là: Tất cả điểm ROUGE của sys1 cao hơn sys2 (ROUGE