7

Hãy xem xét các ví dụ sau đây của hệ số tương quan Pearson trên bộ xếp hạng phim bởi người dùng A và B:Pearson tương quan không cho bộ một cách hoàn hảo tương quan

A = [2,4,4,4,4] 
B = [5,4,4,4,4] 
pearson(A,B) = -1 

A = [5,5,5,5,5] 
B = [5,5,5,5,5] 
pearson(A,B) = NaN 

Pearson tương quan dường như sử dụng rộng rãi để tính toán sự tương đồng giữa hai bộ trong lọc cộng tác. Tuy nhiên các bộ ở trên cho thấy sự tương đồng cao (thậm chí hoàn hảo), nhưng các đầu ra cho thấy các tập hợp có tương quan nghịch (hoặc một lỗi gặp phải do div bằng 0).

Ban đầu tôi nghĩ rằng đó là một vấn đề trong việc triển khai của tôi, nhưng tôi đã xác thực nó từ một số máy tính trực tuyến.

Nếu kết quả đầu ra chính xác, tại sao tương quan Pearson được coi là lựa chọn tốt cho ứng dụng này?

Trả lời

0

Tương quan Pearson chia cho độ lệch chuẩn của các biến, trong trường hợp này là 0, do đó gây ra lỗi chia cho 0. Nó được coi là tốt vì không có tập dữ liệu thực nào có độ lệch chuẩn bằng 0. Nói cách khác, bộ dữ liệu thống nhất hoàn chỉnh nằm ngoài miền cho hệ số tương quan Pearson, nhưng không có lý do gì để không sử dụng nó.

+0

Giao điểm của hai bộ xếp hạng thường khá nhỏ và do đó khả năng bộ đồng phục không phải là không hợp lý.Bất kể, một bộ hoàn toàn đồng nhất là chính xác những gì chúng tôi đang hy vọng khi tìm kiếm người dùng tương tự! Có vẻ như một sự xấu hổ để loại trừ nó. – pricj004

+0

@ pricj004 không tương quan hai điểm dữ liệu! Tương quan là giữa * biến *. – Mephy

3

Kết hợp các biện pháp tương quan người giữa hai bộ dữ liệu tức là cách chúng tăng hoặc giảm cùng nhau. Trong thuật ngữ trực quan, chúng sẽ nằm gần như thế nào trên một đường thẳng nếu một bộ được vẽ trên trục x và một bộ khác trên trục y. Ví dụ về mối tương quan tích cực, bất chấp sự khác biệt về quy mô của các tập dữ liệu:

enter image description here

Đối với trường hợp của bạn, các tập dữ liệu là chính xác tương tự, và do đó độ lệch chuẩn của họ là không, mà là một phần của sản phẩm được sử dụng trong mẫu số trong phép tính tương quan pearson, do đó nó không xác định. Điều này có nghĩa là không thể dự đoán tương quan, tức là dữ liệu tăng hoặc giảm cùng với các dữ liệu khác như thế nào. Trong biểu đồ bên dưới, tất cả các điểm dữ liệu nằm trên một điểm, do đó dự đoán mẫu tương quan là không thể.

enter image description here

  • Một giải pháp rất đơn giản để điều này sẽ xử lý những trường hợp riêng rẽ, hoặc nếu bạn muốn đi qua cùng một dòng chảy, một hack gọn gàng sẽ được hãy chắc chắn rằng độ lệch chuẩn của bất kỳ bộ nào không bằng không.

  • Độ lệch chuẩn không bằng 0 có thể đạt được bằng cách thay đổi một giá trị duy nhất của tập, với số lượng nhỏ và vì tập hợp dữ liệu có tương quan cao, nó sẽ cho bạn hệ số tương quan cao.

enter image description here

tôi sẽ khuyên bạn nên nghiên cứu các biện pháp khác tương tự như Euclide khoảng cách, cosin tương đồng, cosin tương tự điều chỉnh quá, và đưa ra quyết định thông báo trên đó phù hợp với trường hợp sử dụng của bạn nhiều hơn. Nó có thể là một cách tiếp cận lai.

tool này được sử dụng để tạo biểu đồ.

Các vấn đề liên quan