2009-09-23 61 views
9

Tôi muốn sử dụng correlation clustering và tôi hình R là một nơi tốt để bắt đầu.Phân cụm tương quan trong R

Tôi có thể trình bày dữ liệu đến R dưới dạng tập hợp các vectơ lớn, thưa thớt hoặc dưới dạng bảng có ma trận không giống nhau được tính toán trước.

Câu hỏi của tôi là:

  • đang có R chức năng hiện có để tắt chức năng này thành một hierarchical cluster với agnes sử dụng correlation clustering?
  • Tôi có phải thực hiện chức năng correlation clustering (được thừa nhận đơn giản) bằng tay không, nếu vậy, làm cách nào để phát huy hiệu quả với agnes?

Trả lời

7

Tôi phải thừa nhận là biết rất ít về chủ đề này, nhưng chỉ để chỉ cho bạn theo một hướng:

  • bạn đã xem xét các gói cụm? Nó có tài liệu rất tốt. Đặc biệt, xem xét trợ giúp (agnes) cho một số gợi ý. Martin Maechler (một thành viên của nhóm lõi R) đã tạo gói và đã đóng góp vào các cuộc thảo luận Stack Overflow trước đây, vì vậy hy vọng anh ấy sẽ cung cấp câu trả lời ở đây.
  • Hàm hclust() là một phần của gói thống kê. Trong thực tế, tôi tin rằng có những kế hoạch hợp nhất hclust() và agnes().
  • Bạn cũng có thể tìm thấy this page from the Bioconductor project helpful.
  • Nếu không, bạn có thể gặp khó khăn khi xem các gói khác trên CRAN Clustering, Natural Language Processing hoặc Machine Learning chế độ xem.
+0

Cảm ơn bạn đã tham khảo – daveb

+0

Không sao cả. Vui lòng đăng bất kỳ câu hỏi nào theo dõi lại câu hỏi này khi bạn tìm ra mọi thứ! :) – Shane

7

Cách tiếp cận chuẩn sẽ là phương pháp liên quan đến cor(), hclust()plot.hclust(). Tôi rất muốn giới thiệu heatmap.2 từ gói gplots tuyệt vời.

1

Tôi đã đi đến http://www.rseek.org/ và đã nhập thuật toán agnes và tìm thấy gói CLUSTER trên CRAN có các chi tiết hàm sau đây cho hàm AGNES.

Chi tiết

agnes được mô tả đầy đủ trong chương 5 của Kaufman và Rousseeuw (1990). So với các phương pháp phân nhóm agglomerative khác như hclust, agnes có các tính năng sau đây: (a) nó mang lại sự agglomerative hệ số (xem agnes.object) mà biện pháp số lượng phân nhóm cấu trúc tìm thấy; và (b) ngoài cây thông thường, nó cũng cung cấp biểu ngữ , một màn hình đồ họa mới (xem plot.agnes).

Thuật toán Agnes tạo cấu trúc phân cấp phân cụm. Lúc đầu, mỗi quan sát là một cụm nhỏ theo số . Các cụm được hợp nhất cho đến khi chỉ một cụm lớn vẫn còn chứa tất cả các quan sát.Tại mỗi giai đoạn , hai cụm gần nhất là được kết hợp để tạo thành một cụm lớn hơn.

Đối với method = "trung bình", khoảng cách giữa hai cụm là mức trung bình của các dissimilarities giữa các điểm trong một cluster và các điểm trong cụm khác. Trong phương thức = "đơn", chúng tôi sử dụng điểm khác biệt nhỏ nhất giữa một điểm trong cụm đầu tiên và một điểm trong cụm thứ hai (gần nhất phương thức lân cận). Khi phương pháp = "hoàn thành", chúng tôi sử dụng số lớn nhất khác nhau giữa một điểm trong cụm đầu tiên và một điểm trong cụm thứ hai (phương pháp hàng xóm xa nhất ).

Cụm là một chủ đề khá lớn và bạn sẽ tìm thấy nhiều gói cho R thực hiện một số hình thức của nó. Khi bạn có cả hai thuộc tính và covariates, việc kết hợp phân cụm với phối cảnh đôi khi có thể mang lại cái nhìn sâu sắc hơn.

2

Thật dễ dàng để sử dụng chức năng agnes trong gói cụm với ma trận không giống nhau. Chỉ cần đặt đối số "diss" thành TRUE.

Nếu bạn có thể dễ dàng tính toán ma trận không giống nhau bên ngoài R, thì đó có thể là cách để đi. Nếu không, bạn chỉ có thể sử dụng hàm cor trong R để tạo ma trận tương tự (từ đó bạn có thể lấy ma trận không giống nhau bằng cách trừ đi 1).

Các vấn đề liên quan