Tôi có tập huấn luyện rất lớn (~ 2Gb) trong tệp CSV. Tệp là quá lớn để đọc trực tiếp vào bộ nhớ (read.csv()
khiến máy tính tạm dừng) và tôi muốn giảm kích thước của tệp dữ liệu bằng PCA. Vấn đề là (theo như tôi có thể nói) tôi cần phải đọc các tập tin vào bộ nhớ để chạy một thuật toán PCA (ví dụ, princomp()
).thực hiện PCA trên tập dữ liệu rất lớn trong R
Tôi đã thử các bigmemory
gói để đọc các tập tin trong như một big.matrix
, nhưng princomp
không hoạt động trên big.matrix
đối tượng và nó không có vẻ như big.matrix
có thể được chuyển đổi thành một cái gì đó giống như một data.frame
.
Có cách nào để chạy princomp
trên tệp dữ liệu lớn mà tôi bị thiếu không?
Tôi là người mới tương đối ở R, vì vậy một số điều này có thể hiển nhiên đối với những người dùng dày dạn kinh nghiệm hơn (lời xin lỗi trong tình trạng khẩn cấp).
Cảm ơn mọi thông tin.
Về cơ bản bạn cần làm PCA mà không ước tính ma trận hiệp phương sai mẫu. Có một tài liệu lớn về PCA cao cấp, đặc biệt là với các ứng dụng xử lý hình ảnh và thị trường tài chính. Tuy nhiên, nó nhiều hơn khả năng không phải là một cái gì đó tầm thường để làm. – John
Có bao nhiêu quan sát và chứa bao nhiêu biến? – rolando2
@ rolando2 Nó chứa khoảng 50K hàng và ~ 10000 cột – user141146