2016-06-27 28 views
8

Với kết quả của hai hệ thống tóm tắt khác nhau (sys1 và sys2) và cùng một bản tóm tắt tham chiếu, tôi đã đánh giá chúng bằng cả BLEU và ROUGE. Vấn đề là: Tất cả điểm ROUGE của sys1 cao hơn sys2 (ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4, ROUGE-L, ROUGE-SU4, ...) nhưng điểm BLEU của sys1 ít hơn so với điểm BLEU của sys2 (khá nhiều).Đánh giá tóm tắt văn bản - BLEU vs ROUGE

Vì vậy, câu hỏi của tôi là: Cả ROUGE và BLEU đều dựa trên n-gram để đo lường tương tự giữa tóm tắt các hệ thống và tóm tắt của con người. Vậy tại sao có sự khác biệt trong kết quả đánh giá như vậy? Và sự khác biệt chính của ROUGE so với BLEU là gì để giải thích vấn đề này?

Bất kỳ lời khuyên và đề xuất nào sẽ được đánh giá rất nhiều! Cảm ơn!

Trả lời

12

Nói chung:

Bleu đo chính xác: bao nhiêu những lời (và/hoặc n-gram) trong máy tạo ra bản tóm tắt xuất hiện trong bản tóm tắt tài liệu tham khảo của con người.

biện pháp

Rouge nhớ: bao nhiêu những lời (và/hoặc n-gram) trong tóm tắt tài liệu tham khảo nhân xuất hiện trong bản tóm tắt máy tạo ra.

Một cách tự nhiên - những kết quả này bổ sung, như thường xảy ra trong trường hợp chính xác so với lần truy hồi. Nếu bạn có nhiều từ từ kết quả hệ thống xuất hiện trong các tham chiếu của con người bạn sẽ có Bleu cao, và nếu bạn có nhiều từ từ các tham chiếu của con người xuất hiện trong kết quả hệ thống bạn sẽ có cao Rouge.

Trong trường hợp của bạn, có vẻ như sys1 có Rouge cao hơn sys2 vì kết quả trong sys1 luôn có nhiều từ hơn từ các tham chiếu của con người xuất hiện trong chúng so với kết quả từ sys2. Tuy nhiên, kể từ khi điểm Bleu của bạn cho thấy sys1 có thu hồi thấp hơn sys2, điều này sẽ gợi ý rằng không quá nhiều từ từ kết quả sys1 của bạn xuất hiện trong tài liệu tham khảo của con người, đối với sys2. Điều này có thể xảy ra ví dụ nếu sys1 của bạn xuất kết quả có chứa các từ từ các tham chiếu (upping the Rouge), nhưng cũng có nhiều từ mà các tham chiếu không bao gồm (giảm Bleu). sys2, như nó có vẻ, là cho kết quả mà hầu hết các từ được xuất hiện trong các tham chiếu của con người (upping the Blue), nhưng cũng thiếu nhiều từ kết quả của nó xuất hiện trong tài liệu tham khảo của con người.

BTW, có điều gì đó được gọi là hình phạt ngắn gọn, điều này khá quan trọng và đã được thêm vào triển khai Bleu chuẩn. Nó phạt các kết quả hệ thống là ngắn hơn so với chiều dài chung của một tham chiếu (đọc thêm về nó here). Điều này bổ sung cho hành vi số liệu n-gram có hiệu lực phạt lâu hơn so với kết quả tham chiếu, vì mẫu số phát triển kết quả hệ thống càng dài. Bạn cũng có thể thực hiện điều gì đó tương tự cho Rouge, nhưng lần này sẽ phạt các kết quả hệ thống là dài hơn so với chiều dài tham chiếu chung, nếu không sẽ cho phép chúng đạt được điểm số cao hơn giả tạo của Rouge (vì kết quả càng dài càng cao) cơ hội bạn sẽ nhấn một số từ xuất hiện trong các tài liệu tham khảo). Ở Rouge, chúng tôi chia cho độ dài của các tài liệu tham khảo của con người, vì vậy chúng tôi sẽ cần thêm một hình phạt cho kết quả hệ thống dài hơn mà có thể nâng cao điểm số Rouge của họ một cách nhân tạo.

Cuối cùng, bạn có thể sử dụng các biện pháp F1 để làm cho số liệu làm việc cùng nhau: F1 = 2 * (Bleu * Rouge)/(Bleu + Rouge)

+0

Bạn đã đăng câu trả lời chính xác cho hai câu hỏi. Nếu bạn nghĩ rằng một trong số họ là một bản sao của người khác, bạn nên đánh dấu chúng như vậy (và không đăng cùng một câu trả lời hai lần). – Jaap

+1

Các câu trả lời là không giống nhau, và các câu hỏi không chính xác giống nhau .. Đúng là một trong các câu trả lời có chứa câu trả lời khác, nhưng tôi không thể nhìn thấy một cách rõ ràng để hội tụ hai câu hỏi. –

+0

Câu trả lời * 'other' * khác sẽ được đánh dấu là một bản sao. – Jaap

1

Cả ROUGE và BLEU được dựa trên n-gram để đo tương tự giữa các bản tóm tắt của hệ thống và tóm tắt của con người. Vậy tại sao có sự khác biệt trong kết quả đánh giá như vậy? Và sự khác biệt chính của ROUGE so với BLEU là gì để giải thích vấn đề này?

Có cả độ chính xác ROUGE-n và thu hồi chính xác ROUGE-n. triển khai ROUGE ban đầu từ bài báo giới thiệu ROUGE {3} tính cả hai, cũng như kết quả F1-score.

Từ http://text-analytics101.rxnlp.com/2017/01/how-rouge-works-for-evaluation-of.html (mirror):

ROUGE thu hồi:

enter image description here

ROUGE chính xác:

enter image description here

(Bản gốc ROUGE thực hiện từ giấy giới thiệu ROUGE { 1} có thể thực hiện một vài phút những thứ giống như bắt nguồn.)

Độ chính xác và thu hồi ROUGE-n rất dễ hiểu, không giống như BLEU (xem Interpreting ROUGE scores).

Sự khác biệt giữa độ chính xác ROUGE-n và BLEU là BLEU giới thiệu một thuật ngữ hình phạt ngắn gọn, và cũng tính toán kết quả n-gram cho nhiều kích cỡ n-grams (không giống như ROUGE-n, khi chỉ có một chọn kích thước n-gram). Stack Overflow không hỗ trợ LaTeX vì vậy tôi sẽ không đi vào nhiều công thức để so sánh với BLEU. {2} giải thích rõ ràng BLEU.


Tài liệu tham khảo:

Các vấn đề liên quan