Tôi có một tập dữ liệu lớn tôi làm việc với R bằng cách sử dụng một số gói big.___()
. Đó là ~ 10 hợp đồng biểu diễn (100mmR x 15C) và trông giống như sau:R biglm với các biến phân loại
Price Var1 Var2
12.45 1 1
33.67 1 2
25.99 3 3
14.89 2 2
23.99 1 1
... ... ...
Tôi đang cố gắng dự đoán giá dựa trên Var1 và Var2.
Vấn đề tôi đã đưa ra là Var1 và Var2 là các biến phân loại/yếu tố.
var1 và var2 từng có 3 cấp độ (1,2 và 3) nhưng chỉ có 6 kết hợp trong các dữ liệu thiết
(1,1; 1,2; 1,3; 2,2; 2,3; 3,3)
Để sử dụng các biến yếu tố trong biglm()
họ phải có mặt trong mỗi đoạn dữ liệu mà biglm
sử dụng (hiểu biết của tôi là biglm
chia dữ liệu thành số x 'x' của các khối và cập nhật các thông số hồi quy sau khi phân tích từng đoạn để xử lý các tập dữ liệu lớn hơn RAM).
Tôi đã cố gắng để tập hợp con các dữ liệu nhưng máy tính của tôi không thể xử lý nó hoặc mã của tôi là sai:
bm11 <- big.matrix(150000000, 3)
bm11 <- subset(x, x[,2] == 1 & x[,3] == 1)
Trên đây mang lại cho tôi một bó của những:
Error: cannot allocate vector of size 1.1 Gb
Liệu bất cứ ai có bất cứ đề nghị để làm việc xung quanh vấn đề này?
Tôi đang sử dụng R 64 bit trên máy tính Windows 7 có 4 bộ nhớ RAM.
Bạn có thể tự tạo các núm vú giả và chạy 'biglm' trên chúng không? –
@ gsk3: Đó là những gì tôi đã làm trước khi nhận ra rằng họ cần phải có mặt trong mỗi đoạn. Tôi chạy biglm thành công sau đó nhận được một thông báo lỗi khi tôi đã cố gắng để dự đoán giá trị mới và họ không phải tất cả đều có trong các thông số hồi quy. – screechOwl