2012-03-25 40 views
12

Làm cách nào để sử dụng gói R randomForest với trọng số quan sát? Tôi biết rằng không có tùy chọn như vậy trong gói này. Tôi có 2 câu hỏi:Kết hợp các trọng số quan sát trong gói randomForest

  1. Có giải pháp nào cho vấn đề này khi sử dụng gói randomForest không? Tại thời điểm này tôi đang lấy mẫu từ dữ liệu có trọng số là xác suất để tôi ít nhất có thể mô phỏng nó:

    m = dim(data)[1] 
    sample(data, m, replace=TRUE, prob=weights) 
    

    Nó hoạt động có giải pháp nào khác (tốt hơn)?

  2. Có bất kỳ lựa chọn thay thế nào cho gói randomForest. Tôi tìm thấy gói party (cforest) nhưng nó rất khủng khiếp về mặt quản lý bộ nhớ (hoặc tôi không thể sử dụng nó theo cách tôi sử dụng gói randomForest). Tôi có khoảng 200k quan sát và 30-40 biến.

EDIT:

Xin lỗi vì không làm rõ chi tiết. Tôi đang sử dụng gói randomForest cho vấn đề hồi quy (không phân loại). Đây là một chuỗi thời gian và mọi quan sát đều có trọng lượng của nó. Sau đó, trọng lượng này được sử dụng để xác định hiệu suất mô hình trên các quan sát kiểm tra. Biến y là liên tục.

+0

Có thể thấy quan tâm nhiều hơn tại http://stats.stackexchange.com –

Trả lời

1

randomForest không có tham số "classwt" cho phép bạn tính toán xác suất lấy mẫu vi phân hoặc thậm chí cho chi phí vi phân. Phải thừa nhận rằng nó được bỏ qua với hồi quy Có lẽ bạn nên giải thích lý do tại sao bạn cần phải sử dụng trọng số và loại biến y bạn đang sử dụng.

1

Tôi đang tìm kiếm tùy chọn giống như bạn Pawel trong Rừng Ngẫu nhiên. Và tôi đã tìm ra gói "kiểm lâm" trong R kết hợp nó trong chức năng "kiểm lâm" (thông qua tham số "case.weights").

Gói phát hành vào tháng 6 năm 2016 để nó rất trẻ.

nhất,

+0

Tôi chỉ tìm ra randomForestSRC cũng bao gồm một tham số case.wt trong phiên bản của nó 2.2.0. Xem 'rfsrc.news()' với phiên bản randomForestSRC mới được cài đặt! Giải pháp này có thể an toàn hơn vì randomForestSRC là một gói được sử dụng rộng rãi! Tốt nhất, – Ooona

Các vấn đề liên quan