Tôi cố gắng để sử dụng rừng gói ngẫu nhiên để phân loại trong R.Rừng R Random Tầm quan trọng Variable
Các biện pháp quan trọng biến được liệt kê là:
- nghĩa số điểm quan trọng liệu của biến x cho lớp 0
- trung bình số điểm quan trọng liệu của biến x cho lớp 1
MeanDecreaseAccuracy
MeanDecreaseGini
Bây giờ tôi biết ý nghĩa của từ "có nghĩa" như trong định nghĩa của chúng. Điều tôi muốn biết là cách sử dụng chúng.
Những gì tôi thực sự muốn biết là những gì những giá trị này có nghĩa là chỉ trong bối cảnh như thế nào chính xác họ đang có, một giá trị tốt là gì, giá trị xấu là gì, mức tối đa và tối thiểu là gì vv
Nếu biến có độ cao MeanDecreaseAccuracy
hoặc MeanDecreaseGini
thì điều đó có nghĩa là biến đó quan trọng hoặc không quan trọng? Ngoài ra, bất kỳ thông tin nào về điểm số thô cũng có thể hữu ích. Tôi muốn biết mọi thứ cần biết về những con số này có liên quan đến việc áp dụng chúng.
Giải thích sử dụng từ 'lỗi', 'tóm tắt' hoặc 'hoán vị' sẽ ít hữu ích hơn, sau đó giải thích đơn giản hơn không liên quan đến bất kỳ cuộc thảo luận nào về cách hoạt động của rừng ngẫu nhiên.
Giống như nếu tôi muốn ai đó giải thích cho tôi cách sử dụng radio, tôi sẽ không mong đợi giải thích liên quan đến cách radio chuyển đổi sóng vô tuyến thành âm thanh.
Vui lòng bao gồm liên kết đến định nghĩa Gini thực sự được sử dụng để tách nút: http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity – tashuhka