2009-04-10 50 views
42

Tôi cố gắng để sử dụng rừng gói ngẫu nhiên để phân loại trong R.Rừng R Random Tầm quan trọng Variable

Các biện pháp quan trọng biến được liệt kê là:

  • nghĩa số điểm quan trọng liệu của biến x cho lớp 0
  • trung bình số điểm quan trọng liệu của biến x cho lớp 1
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

Bây giờ tôi biết ý nghĩa của từ "có nghĩa" như trong định nghĩa của chúng. Điều tôi muốn biết là cách sử dụng chúng.

Những gì tôi thực sự muốn biết là những gì những giá trị này có nghĩa là chỉ trong bối cảnh như thế nào chính xác họ đang có, một giá trị tốt là gì, giá trị xấu là gì, mức tối đa và tối thiểu là gì vv

Nếu biến có độ cao MeanDecreaseAccuracy hoặc MeanDecreaseGini thì điều đó có nghĩa là biến đó quan trọng hoặc không quan trọng? Ngoài ra, bất kỳ thông tin nào về điểm số thô cũng có thể hữu ích. Tôi muốn biết mọi thứ cần biết về những con số này có liên quan đến việc áp dụng chúng.

Giải thích sử dụng từ 'lỗi', 'tóm tắt' hoặc 'hoán vị' sẽ ít hữu ích hơn, sau đó giải thích đơn giản hơn không liên quan đến bất kỳ cuộc thảo luận nào về cách hoạt động của rừng ngẫu nhiên.

Giống như nếu tôi muốn ai đó giải thích cho tôi cách sử dụng radio, tôi sẽ không mong đợi giải thích liên quan đến cách radio chuyển đổi sóng vô tuyến thành âm thanh.

Trả lời

24

Giải thích sử dụng những từ 'lỗi', 'tổng', hoặc 'permutated' sẽ ít hữu ích sau đó là một lời giải thích đơn giản rằng không liên quan đến bất kỳ cuộc thảo luận về cách rừng ngẫu nhiên hoạt động.

Giống như nếu tôi muốn ai đó giải thích cho tôi cách sử dụng radio, tôi sẽ không mong đợi giải thích liên quan đến cách radio chuyển đổi sóng radio thành âm thanh.

Làm cách nào bạn giải thích những con số trong WKRP 100.5 FM "có nghĩa là" mà không đi sâu vào chi tiết kỹ thuật của tần số sóng? Các thông số thẳng thắn và các vấn đề về hiệu suất có liên quan với Rừng Ngẫu nhiên rất khó để có được đầu của bạn ngay cả khi bạn hiểu một số thuật ngữ kỹ thuật.

Dưới đây là bắn của tôi tại một số câu trả lời:

-mean điểm quan trọng liệu của biến x cho lớp 0

-mean điểm quan trọng liệu của biến x cho lớp 1

Đơn giản hóa từ Random Forest web page, điểm số quan trọng thô đo lường mức độ hữu ích hơn nhiều so với ngẫu nhiên một biến dự đoán cụ thể là phân loại thành công dữ liệu.

-MeanDecreaseAccuracy

Tôi nghĩ rằng đây là duy nhất trong R module, và tôi tin rằng nó đo bao nhiêu bao gồm các dự báo này trong mô hình giảm lỗi phân loại.

-MeanDecreaseGini

Gini được định nghĩa là "bất bình đẳng" khi được sử dụng trong việc mô tả phân phối của một xã hội thu nhập, hoặc một biện pháp "nút tạp chất" trong phân loại cây-based. Một Gini thấp (tức là cao hơn descrease trong Gini) có nghĩa là một biến dự báo cụ thể đóng một vai trò lớn hơn trong phân vùng dữ liệu vào các lớp được xác định. Đó là một mô tả khó mà không nói đến thực tế là dữ liệu trong các cây phân loại được chia thành các nút riêng lẻ dựa trên các giá trị của các yếu tố dự báo. Tôi không rõ ràng về cách dịch này thành hiệu suất tốt hơn.

+2

Vui lòng bao gồm liên kết đến định nghĩa Gini thực sự được sử dụng để tách nút: http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity – tashuhka

20

Vì mối quan tâm trước mắt của bạn: giá trị cao hơn có nghĩa là các biến quan trọng hơn. Điều này đúng với tất cả các biện pháp bạn đề cập.

Rừng ngẫu nhiên cung cấp cho bạn các mô hình khá phức tạp, vì vậy có thể khó hiểu các biện pháp quan trọng. Nếu bạn muốn dễ dàng hiểu những gì các biến của bạn đang làm, không sử dụng RF. Sử dụng các mô hình tuyến tính hoặc cây quyết định (không phải toàn bộ) để thay thế.

Bạn nói:

Giải thích sử dụng các từ 'lỗi', 'tổng', hoặc 'permutated' sẽ ít hữu ích sau đó là một lời giải thích đơn giản hơn mà không liên quan đến bất kỳ cuộc thảo luận về cách thức hoạt động của rừng ngẫu nhiên .

Sẽ rất khó khăn để giải thích nhiều hơn những điều trên trừ khi bạn tìm hiểu và tìm hiểu về rừng ngẫu nhiên. Tôi giả sử bạn đang phàn nàn về một trong hai hướng dẫn, hoặc phần từ thủ công Breiman của:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

Để tìm ra tầm quan trọng của một biến là, họ điền vào nó với rác ngẫu nhiên ("hoán vị" nó), sau đó xem độ chính xác dự báo giảm đi bao nhiêu. MeanDecreaseAccuracy và MeanDecreaseGini hoạt động theo cách này. Tôi không chắc điểm số quan trọng thô là gì.

5

Giải thích là khó khăn với Rừng Ngẫu nhiên. Trong khi RF là một trình phân loại cực kỳ mạnh mẽ, nó làm cho các dự đoán của nó một cách dân chủ. Bằng cách này, tôi có nghĩa là bạn xây dựng hàng trăm hoặc hàng ngàn cây bằng cách lấy một tập con ngẫu nhiên của các biến của bạn và một tập hợp con ngẫu nhiên của dữ liệu của bạn và xây dựng một cây. Sau đó thực hiện dự đoán cho tất cả dữ liệu không được chọn và lưu dự đoán. Của nó mạnh mẽ bởi vì nó giao dịch tốt với những bất thường của tập dữ liệu của bạn, (tức là nó mượt mà trên các giá trị cao/thấp ngẫu nhiên, lô ngẫu nhiên/mẫu, đo lường cùng một điều 4 cách khác nhau, vv). Tuy nhiên, nếu bạn có một số biến tương quan cao, cả hai có thể có vẻ quan trọng vì chúng không phải lúc nào cũng được bao gồm trong mỗi mô hình.

Một cách tiếp cận tiềm năng với rừng ngẫu nhiên có thể giúp giảm bớt các dự đoán của bạn sau đó chuyển sang CART thường xuyên hoặc thử gói PARTY cho các mô hình cây dựa trên suy luận. Tuy nhiên, bạn phải cảnh giác với các vấn đề về khai phá dữ liệu và đưa ra suy luận về các tham số.

Các vấn đề liên quan