Một số yếu tố quyết định cần xem xét khi chọn một chỉ số tương tự là gì. Trong trường hợp nào là một khoảng cách Euclide được ưu tiên hơn Pearson và ngược lại?Làm cách nào để biết khi nào nên sử dụng một loại Chỉ số tương tự cụ thể? Khoảng cách Euclide so với Tương quan Pearson
Trả lời
Tương quan là đơn vị độc lập; nếu bạn quy mô một trong các đối tượng mười lần, bạn sẽ nhận được khoảng cách euclide khác nhau và khoảng cách tương quan tương tự. Do đó, số liệu tương quan là tuyệt vời khi bạn muốn đo khoảng cách giữa các đối tượng như gen được xác định bởi cấu hình biểu thức của chúng.
Thông thường, tương quan tuyệt đối hoặc bình phương được sử dụng làm chỉ số khoảng cách, bởi vì chúng ta quan tâm hơn đến sức mạnh của mối quan hệ hơn là trong dấu hiệu của nó.
Tuy nhiên, tương quan chỉ phù hợp với dữ liệu có chiều cao; hầu như không có điểm tính toán cho các điểm dữ liệu hai hoặc ba chiều.
Cũng lưu ý rằng "khoảng cách Pearson" là một loại trọng số của khoảng cách Euclide, và không phải là "khoảng cách tương quan" sử dụng hệ số tương quan Pearson.
Nó thực sự phụ thuộc vào kịch bản ứng dụng bạn có trong tay. Rất ngắn gọn, nếu bạn đang xử lý dữ liệu trong đó sự khác biệt thực tế trong các giá trị của thuộc tính là quan trọng, hãy đi với khoảng cách Euclide. Nếu bạn đang tìm kiếm xu hướng hoặc hình dạng tương tự, sau đó đi với sự tương quan. Cũng lưu ý rằng nếu bạn thực hiện bình thường z-score trong mỗi đối tượng, Euclidean Distance hoạt động tương tự như hệ số tương quan Pearson. Pearson không nhạy cảm với các phép biến đổi tuyến tính của dữ liệu. Có các loại hệ số tương quan khác có tính đến cấp bậc của các giá trị, không nhạy cảm với cả phép biến đổi tuyến tính và phi tuyến tính. Lưu ý rằng việc sử dụng thông thường của sự tương quan là khác nhau là 1 - tương quan, mà không tôn trọng tất cả các quy tắc cho một khoảng cách số liệu.
Có một số nghiên cứu trên đó đo khoảng cách chọn vào một ứng dụng cụ thể, ví dụ:
Pablo A. Jaskowiak, Ricardo JGB Campello, Ivan G. Costa Filho, "Các biện pháp tiệm cận cho Clustering Gene biểu Microarray dữ liệu: Phương pháp xác nhận và phân tích so sánh, "Giao dịch IEEE/ACM về Sinh học tính toán và Tin sinh học, vol. 99, không. PrePrints, tr. 1,, 2013
- 1. Tương quan của Pearson có trọng số?
- 2. Làm cách nào để biết khi nào nên sử dụng các chỉ mục và loại nào?
- 3. AppDelegate là gì và làm cách nào để biết khi nào nên sử dụng?
- 4. Làm cách nào để xác định số bit tương tự?
- 5. Scipy: Tương quan của Pearson luôn quay trở lại 1
- 6. khoảng cách Euclide với trọng lượng
- 7. Làm cách nào để so sánh các XML tương tự với PHPUnit?
- 8. Làm cách nào để so sánh hai tệp tương tự với vimdiff của vim?
- 9. Làm thế nào để so sánh các chuỗi gần như tương tự trong Java? (Chuỗi khoảng cách đo)
- 10. Làm cách nào để biết số dòng tương ứng với vị trí bộ đệm?
- 11. Làm cách nào để lưu trữ các loại Java, chỉ cho phép một số loại Java cụ thể?
- 12. Khi nào nên sử dụng() so với 'as' để thay đổi loại?
- 13. Cách lấy mối tương quan giữa hai khoảng thời gian sử dụng Pandas
- 14. Hệ số tương quan Pearson Giá trị p 2 đuôi có nghĩa là
- 15. Điều chỉnh tọa độ 2D và giữ nguyên khoảng cách euclide tương đối của chúng?
- 16. Làm cách nào để thực hiện so sánh tương đương với hàm băm Perl đơn giản?
- 17. Làm cách nào để sử dụng CATransform3D trên UIView để thêm một loại quan điểm cụ thể?
- 18. Làm cách nào để biết loại tệp sử dụng Boost.Filesystem?
- 19. Làm cách nào để biết một PropertyInfo có thuộc loại enum cụ thể không?
- 20. Làm cách nào để xác định phần tương tự dài nhất của một số chuỗi?
- 21. Cách tính tương tự
- 22. Làm cách nào để so sánh các loại khi sử dụng Generics?
- 23. Cách nhóm/so sánh các bài viết tương tự
- 24. Khi nào bạn nên sử dụng Page.DataBind() so với Control.DataBind()?
- 25. Tương tự về chuỗi -> Khoảng cách Levenshtein
- 26. Tôi làm cách nào để sử dụng - tương tác với định dạng git-patch?
- 27. Làm cách nào để truy xuất hiệu quả các vectơ K-tương tự bằng cách tương tự cosin bằng R?
- 28. Làm cách nào để buộc Postgres sử dụng một chỉ mục cụ thể?
- 29. Cách sử dụng GDB để tìm địa chỉ bộ nhớ nào tương ứng với
- 30. Xóa các ngoại lệ khỏi tính hệ số tương quan