2011-04-26 35 views
7

Ai cũng có thể giải thích đầu ra của cụm K-Means trong WEKA thực sự có nghĩa là gì.WEKA K-Means Clustering

Ví dụ

kMeans 


Number of iterations: 9 

Within cluster sum of squared errors: 9434.911100488926 

Missing values globally replaced with mean/mode 

Cluster centroids: 

        Cluster# 
Attribute   Full Data   0   1       
         (400)  (310)  (90) 
================================================= 
competency134  0.0425  0.0548   0 
competency207  0.0425  0.0548   0 
competency263   0.01  0.0129   0 
competency264   0.01  0.0129   0 
competency282   0.01  0.0129   0 
competency289   0.01  0.0129   0 

làm những con số trong cột thực sự có ý nghĩa gì, nó nói centroids cụm trên bàn nhưng làm thế nào là nó có thể để xác định những gì các trọng tâm của hai cụm là?

Nếu ai cũng có thể giải thích những con số này có nghĩa là tôi sẽ biết ơn nhất.

Nếu có bất kỳ ý tưởng nào về cách hoàn thành đánh giá hình bóng của các cụm tìm thấy cũng sẽ tuyệt vời.

Cảm ơn

Trả lời

3

Cột đầu tiên cung cấp cho bạn trung tâm dân số tổng thể. Cột thứ hai và thứ ba cung cấp cho bạn các centroids cho cụm 0 và 1, tương ứng. Mỗi hàng cung cấp tọa độ centroid cho kích thước cụ thể.

Tôi tin rằng bạn cần phải chải lên trên K-means của mình. Tìm các centroid là một phần thiết yếu của thuật toán. Các centroids là kết quả của một hoạt động cụ thể của thuật toán và không phải là duy nhất - một chạy khác nhau có thể tạo ra một bộ tập trung khác nhau.

Vui lòng xem Michael Abernethy's description of Weka clustering để biết thêm chi tiết.

-1

Sử dụng giá trị thường xuyên nhất cho thuộc tính trong cụm nếu thuộc tính là danh nghĩa. Sử dụng giá trị trung bình cho một thuộc tính trong một cụm nếu thuộc tính là số. Kiểm tra this link để biết thêm chi tiết.

3

Chỉ cần một bước đầu tiên,

  1. Lưu cốt truyện từ tab hình dung như một tập tin arff.

  2. Mở tệp bằng weka và nhấp vào chỉnh sửa, bạn sẽ tự động thấy trong từng trường hợp thuộc về từng nhóm.

  3. Sao chép bảng này vượt trội (để hình dung dễ dàng hơn)

  4. Sử dụng excel hay matlab để tìm silhoutte, sự gắn kết, tách với các phương pháp cổ điển.

+0

tôi đã thử nhưng tôi chỉ có thể xem dữ liệu chứ không chỉ số cụm? – Atul

+0

Tôi đã cố gắng áp dụng bộ lọc (AddCluster) và nó hoạt động. – Atul

+0

Công việc này !! Không cần phải áp dụng bộ lọc. Chỉ cần lưu các tập tin từ weka cluster visualize pane như là một tập tin arff và mở trong weka. Thuộc tính mới có tên "cluster" được tạo. – Supun

0

Trước tiên, nhóm là phương pháp thống kê mô tả. Thứ hai, thuật toán Kmeans yêu cầu nhập số cụm trước, để tìm số lượng cụm tối ưu, một số phương pháp thống kê. Thứ ba, các trung tâm của dữ liệu số là trung bình số học của dữ liệu mà làm cho các cụm. Vì vậy, những dữ liệu này đại diện cho dữ liệu nhóm.