Tôi đang cố gắng thực hiện một số cụm từ k trên một ma trận rất lớn.k-có nghĩa là phân cụm trong R trên ma trận rất lớn, thưa thớt?
Ma trận có khoảng 500.000 hàng x 4000 cols nhưng rất thưa thớt (chỉ một vài giá trị "1" cho mỗi hàng).
Toàn bộ nội dung không phù hợp với bộ nhớ, vì vậy tôi đã chuyển đổi nó thành tệp ARFF thưa thớt. Nhưng R rõ ràng không thể đọc được định dạng tệp ARFF thưa thớt. Tôi cũng có dữ liệu dưới dạng tệp CSV đơn giản.
Có gói nào có sẵn trong R để tải các ma trận thưa thớt như vậy một cách hiệu quả không? Sau đó tôi sẽ sử dụng thuật toán k-means thông thường từ gói cụm để tiếp tục.
Rất cám ơn
Cảm ơn bạn đã trả lời! Tôi có một câu hỏi khác mặc dù :-) Tôi đang cố gắng chạy bigkmeans với số cụm khoảng 2000 ví dụ "clust <- bigkmeans (mymatrix, centers = 2000)" Tuy nhiên, tôi nhận được lỗi sau: Lỗi trong 1: (10 + 2^k): kết quả sẽ là quá dài một vector Ai đó có thể cho tôi một gợi ý những gì tôi đang làm sai ở đây? Cảm ơn! – movingabout
Gốc tại http://stackoverflow.com/questions/3177827/clustering-on-very-large-sparse-matrix –