Tôi đang thử mô hình phân loại rừng ngẫu nhiên bằng cách sử dụng thư viện H2O
bên trong R trên bộ đào tạo có 70 triệu hàng và 25 đối tượng dạng số. Tổng kích thước tệp là 5,6 GB.Tại sao kết nối bị chấm dứt
Kích thước của tệp xác thực là 1 GB.
Tôi có RAM 16 GB và 8 lõi CPU trên hệ thống của mình.
Hệ thống có thể đọc thành công cả hai tệp trong đối tượng H2O.
Sau đó tôi đưa ra dưới đây lệnh để xây dựng mô hình:
model <- h2o.randomForest(x = c(1:18,20:25), y = 19, training_frame = traindata,
validation_frame = testdata, ntrees = 150, mtries = 6)
Nhưng sau vài phút (không tạo ra bất kỳ cây), tôi nhận được lỗi sau:
"Error in .h2o.doSafeREST(conn = conn, h2oRestApiVersion = h2oRestApiVersion, : Unexpected CURL error: Recv failure: Connection reset by peer"
Tuy nhiên Nếu Tôi đã thử trên mã với 1 cây, chạy nó thành công.
Lỗi trên có xảy ra do sự cố bộ nhớ không? Bất kỳ trợ giúp sẽ được đánh giá cao.
tôi đã kiểm tra mức sử dụng bộ nhớ trong quá trình phát triển rừng. Bộ nhớ giảm nhanh và cuối cùng tôi gặp lỗi kết nối. tôi sẽ giết quá trình khác, và chỉ chạy bản ngã RF. – rks
Hãy cho chúng tôi biết nếu điều đó có ích. Ngoài ra, bạn có thể thử phương pháp tiếp cận ML ít đòi hỏi tài nguyên hơn như mạng thần kinh sâu, cũng tồn tại trong phiên bản cơ sở H2O. – cyberj0g
Đó là sai lầm của tôi. Trước đây tôi đã chạy trường hợp H2O với tùy chọn bộ nhớ mặc định (Đó là quá ít cho dữ liệu của tôi). Bây giờ tôi đang chạy thể hiện H2O với tùy chọn -Xmx14g và algo đang chạy thành công. Chúc mừng ... :). Tôi sẽ xem xét đề xuất của bạn về học tập sâu nếu tôi sẽ có được độ chính xác ít hơn một ngưỡng trong trường hợp của tôi. – rks