phản ứng ban đầu của tôi cho câu hỏi này là nó không xuất hiện nhiều nghiên cứu nỗ lực, vì "mọi người" đều biết rằng các khu rừng ngẫu nhiên không xử lý các giá trị thiếu trong các dự đoán. Nhưng khi kiểm tra ?randomForest
tôi phải thú nhận rằng nó có thể rõ ràng hơn về điều này.
(Mặc dù, Breiman của PDF liên kết đến trong tài liệu không rõ ràng nói rằng giá trị thiếu chỉ đơn giản là không được xử lý ở tất cả.)
Các đầu mối rõ ràng chỉ trong tài liệu chính thức mà tôi có thể nhìn thấy là giá trị mặc định cho thông số na.action
là na.fail
, có thể quá khó hiểu đối với người dùng mới.
Trong mọi trường hợp, nếu dự đoán của bạn có giá trị bị mất, bạn có (cơ bản) hai lựa chọn:
- Sử dụng một công cụ khác nhau (
rpart
xử lý thiếu giá trị độc đáo.)
- quy cho các giá trị bị mất
Không có gì ngạc nhiên khi gói randomForest
có chức năng chỉ thực hiện việc này, rfImpute
. Tài liệu tại số ?rfImpute
chạy qua một ví dụ cơ bản về việc sử dụng nó.
Nếu chỉ một số ít trường hợp có giá trị bị thiếu, bạn cũng có thể thử đặt na.action = na.omit
để chỉ cần xóa những trường hợp đó.
Và tất nhiên, câu trả lời này là một chút đoán rằng vấn đề của bạn thực sự đơn giản là thiếu giá trị.
Trong trạng thái hiện tại, câu hỏi này sẽ rất khó trả lời. Bạn có thể cập nhật câu hỏi của mình với một số dữ liệu mẫu không? – Chase
@ MattO'Brien Cũng vui rằng chất lượng của một câu hỏi được thảo luận dựa trên số lượt xem chứ không phải dựa trên giá trị của câu hỏi. Và câu trả lời, vì @ Joran không có vấn đề gì để tìm ra những gì đang được hỏi và cung cấp những gì dường như là một giải pháp tốt cho vấn đề của người hỏi. – user7610