Hãy xem xét các ví dụ sau đây của hệ số tương quan Pearson trên bộ xếp hạng phim bởi người dùng A và B:Pearson tương quan không cho bộ một cách hoàn hảo tương quan
A = [2,4,4,4,4]
B = [5,4,4,4,4]
pearson(A,B) = -1
A = [5,5,5,5,5]
B = [5,5,5,5,5]
pearson(A,B) = NaN
Pearson tương quan dường như sử dụng rộng rãi để tính toán sự tương đồng giữa hai bộ trong lọc cộng tác. Tuy nhiên các bộ ở trên cho thấy sự tương đồng cao (thậm chí hoàn hảo), nhưng các đầu ra cho thấy các tập hợp có tương quan nghịch (hoặc một lỗi gặp phải do div bằng 0).
Ban đầu tôi nghĩ rằng đó là một vấn đề trong việc triển khai của tôi, nhưng tôi đã xác thực nó từ một số máy tính trực tuyến.
Nếu kết quả đầu ra chính xác, tại sao tương quan Pearson được coi là lựa chọn tốt cho ứng dụng này?
Giao điểm của hai bộ xếp hạng thường khá nhỏ và do đó khả năng bộ đồng phục không phải là không hợp lý.Bất kể, một bộ hoàn toàn đồng nhất là chính xác những gì chúng tôi đang hy vọng khi tìm kiếm người dùng tương tự! Có vẻ như một sự xấu hổ để loại trừ nó. – pricj004
@ pricj004 không tương quan hai điểm dữ liệu! Tương quan là giữa * biến *. – Mephy