Cách tính toán khác (trong R) tất cả các khác biệt theo cặp (khoảng cách) giữa các quan sát trong tập dữ liệu. Các biến ban đầu có thể là các loại hỗn hợp. Việc xử lý dữ liệu nhị phân đối xứng danh nghĩa, thứ tự và (a) bằng cách sử dụng hệ số tương đồng chung của Gower (Gower, J. C. (1971) Một hệ số chung tương tự và một số thuộc tính của nó, Biometrics 27, 857–874). Để biết thêm thông tin, hãy truy cập this on page 47. Nếu x chứa bất kỳ cột nào trong các loại dữ liệu này, hệ số của Gower sẽ được sử dụng làm chỉ số.
Ví dụ
x1 <- factor(c(10, 12, 25, 14, 29))
x2 <- factor(c("oily", "dry", "dry", "dry", "oily"))
x3 <- factor(c("medium", "short", "medium", "medium", "long"))
x4 <- factor(c("active outdoor lover", "TV junky", "TV junky", "active outdoor lover", "TV junky"))
x <- cbind(x1,x2,x3,x4)
library(cluster)
daisy(x, metric = "euclidean")
bạn sẽ nhận được:
Dissimilarities :
1 2 3 4
2 2.000000
3 3.316625 2.236068
4 2.236068 1.732051 1.414214
5 4.242641 3.741657 1.732051 2.645751
Nếu bạn quan tâm về một phương pháp để giảm chiều cho dữ liệu phân loại (cũng là một cách để sắp xếp các biến thành cụm đồng nhất) kiểm tra this
Nguồn
2010-06-06 09:52:02
liên quan: http://stackoverflow.com/questions/3007790/finding-the-closest-match/3007816#3007816 – Betamoo