2015-07-08 21 views
6

Nếu hiểu chính xác, khi ước tính Random Forest được tính toán thường bootstrapping được áp dụng, nghĩa là cây (i) chỉ được xây dựng bằng dữ liệu từ mẫu (i), được chọn thay thế. Tôi muốn biết kích thước của mẫu mà sklearn là gì RandomForestRegressor sử dụng.Kích thước mẫu trong Random Forest Regression

Điều duy nhất mà tôi thấy rằng gần:

bootstrap : boolean, optional (default=True) 
    Whether bootstrap samples are used when building trees. 

Nhưng không có cách nào để xác định kích thước hoặc tỷ lệ kích thước mẫu, cũng không cho tôi biết về kích thước mẫu mặc định.

Tôi cảm thấy như cần có cách để ít nhất biết kích thước mẫu mặc định là gì, tôi đang thiếu gì?

Trả lời

3

Kích thước mẫu cho bootstrap luôn là số mẫu.

Bạn đang không thiếu bất cứ điều gì, cùng một câu hỏi được hỏi trên mailing list cho RandomForestClassifier:

Kích thước mẫu bootstrap luôn giống nhau như kích thước mẫu đầu vào. Nếu bạn cảm thấy như vậy, yêu cầu kéo cập nhật tài liệu có thể sẽ khá được hoan nghênh.

4

Uhh, tôi đồng ý với bạn, thật lạ là chúng tôi không thể chỉ định kích thước mẫu con/bootstrap trong RandomForestRegressor algo. Có thể giải pháp thay thế tiềm năng là sử dụng BaggingRegressor thay thế. http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingRegressor.html#sklearn.ensemble.BaggingRegressor

RandomForestRegressor chỉ là trường hợp đặc biệt là BaggingRegressor (sử dụng bootstraps để giảm phương sai của bộ ước lượng sai lệch thiên lệch thấp). Trong RandomForestRegressor, trình ước tính cơ sở buộc phải là DeceisionTree, trong khi ở BaggingRegressor, bạn có quyền tự do chọn base_estimator. Quan trọng hơn, bạn có thể đặt kích thước mẫu con tùy chỉnh của mình, ví dụ: max_samples=0.5 sẽ vẽ các mẫu con ngẫu nhiên có kích thước bằng một nửa toàn bộ tập huấn luyện. Ngoài ra, bạn có thể chọn chỉ một tập hợp con các đối tượng địa lý bằng cách đặt max_featuresbootstrap_features.

Các vấn đề liên quan