2012-11-10 34 views

Trả lời

12

Tương quan là đơn vị độc lập; nếu bạn quy mô một trong các đối tượng mười lần, bạn sẽ nhận được khoảng cách euclide khác nhau và khoảng cách tương quan tương tự. Do đó, số liệu tương quan là tuyệt vời khi bạn muốn đo khoảng cách giữa các đối tượng như gen được xác định bởi cấu hình biểu thức của chúng.

Thông thường, tương quan tuyệt đối hoặc bình phương được sử dụng làm chỉ số khoảng cách, bởi vì chúng ta quan tâm hơn đến sức mạnh của mối quan hệ hơn là trong dấu hiệu của nó.

Tuy nhiên, tương quan chỉ phù hợp với dữ liệu có chiều cao; hầu như không có điểm tính toán cho các điểm dữ liệu hai hoặc ba chiều.

Cũng lưu ý rằng "khoảng cách Pearson" là một loại trọng số của khoảng cách Euclide, và không phải là "khoảng cách tương quan" sử dụng hệ số tương quan Pearson.

5

Nó thực sự phụ thuộc vào kịch bản ứng dụng bạn có trong tay. Rất ngắn gọn, nếu bạn đang xử lý dữ liệu trong đó sự khác biệt thực tế trong các giá trị của thuộc tính là quan trọng, hãy đi với khoảng cách Euclide. Nếu bạn đang tìm kiếm xu hướng hoặc hình dạng tương tự, sau đó đi với sự tương quan. Cũng lưu ý rằng nếu bạn thực hiện bình thường z-score trong mỗi đối tượng, Euclidean Distance hoạt động tương tự như hệ số tương quan Pearson. Pearson không nhạy cảm với các phép biến đổi tuyến tính của dữ liệu. Có các loại hệ số tương quan khác có tính đến cấp bậc của các giá trị, không nhạy cảm với cả phép biến đổi tuyến tính và phi tuyến tính. Lưu ý rằng việc sử dụng thông thường của sự tương quan là khác nhau là 1 - tương quan, mà không tôn trọng tất cả các quy tắc cho một khoảng cách số liệu.

Có một số nghiên cứu trên đó đo khoảng cách chọn vào một ứng dụng cụ thể, ví dụ:

Pablo A. Jaskowiak, Ricardo JGB Campello, Ivan G. Costa Filho, "Các biện pháp tiệm cận cho Clustering Gene biểu Microarray dữ liệu: Phương pháp xác nhận và phân tích so sánh, "Giao dịch IEEE/ACM về Sinh học tính toán và Tin sinh học, vol. 99, không. PrePrints, tr. 1,, 2013

Các vấn đề liên quan