xgboost
cho phép trọng số mẫu trong khi xây dựng DMatrix
, như bạn đã lưu ý. Trọng lượng này là trực tiếp gắn liền với trường hợp và đi với nó trong suốt toàn bộ đào tạo. Vì vậy, được bao gồm trong các tính toán của gradient và hessians, và trực tiếp tác động đến các điểm phân chia và traing của mô hình xgboost
.
thấy here và here
Instance Trọng lượng tập tin
XGBoost hỗ trợ cung cấp mỗi trường hợp trọng lượng để phân biệt tầm quan trọng của trường. Ví dụ, nếu chúng tôi cung cấp một tập tin cân dụ cho tập tin "train.txt" trong ví dụ như sau:
train.txt.weight
0,5
0,5
0,5
Điều đó có nghĩa là XGBoost sẽ nhấn mạnh nhiều hơn về trường hợp thứ nhất và thứ tư , đó là nói những trường hợp tích cực trong khi tập luyện. Cấu hình tương tự như định cấu hình thông tin nhóm. Nếu tên tệp ví dụ là "xxx", XGBoost sẽ kiểm tra xem có tệp có tên "xxx.weight" trong cùng một thư mục hay không và nếu có, sẽ sử dụng trọng số trong khi mô hình đào tạo.
Nó rất khác so vớieta
eta
chỉ đơn giản nói với xgboost
bao nhiêu sự pha trộn các cây cuối cùng được đào tạo thành quần thể. Một thước đo về sự tham lam của quần thể nên ở mỗi lần lặp lại.
Ví dụ, nếu tôi sẽ thiết lập weight
-0,3 cho tất cả các mẫu và eta
tới 1, điều này sẽ là tương tự như thiết eta
đến 0,3 và weight
để 1?
Một hằng weight
trong tổng số 1 cho tất cả các trường là mặc định, vì vậy thay đổi đó để một hằng số của 0,3 cho tất cả các trường vẫn sẽ là trọng số bằng nhau, vì vậy đây không nên ảnh hưởng đến việc quá nhiều. Tuy nhiên, thiết lập eta
tối đa 1, từ .3, sẽ khiến cho việc đào tạo trở nên tích cực hơn nhiều.
Nguồn
2016-03-17 13:22:01
các tài liệu thực sự thiếu về điều này nhưng tôi đã sử dụng trọng lượng cá thể nhẹ nhàng một chút và đào lên một vài liên kết .. câu hỏi hay –