9

Có ba cách để đo tạp chất:Quyết định Tree Học tập và tạp chất

Entropy

Gini Index

Classification Error

sự khác biệt và trường hợp sử dụng phù hợp với từng phương pháp là gì?

+1

Tạp chất của những gì? – Davidann

+2

@David: Xem tại đây: http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity và tại đây: http://people.revoledu.com/kardi/tutorial/DecisionTree/how-to-measure-impurity.htm –

Trả lời

5

Nếu p_i là rất nhỏ, sau đó thực hiện phép nhân trên số rất nhỏ (chỉ số Gini) có thể dẫn đến lỗi làm tròn. Do đó, tốt hơn là thêm các bản ghi (Entropy). Lỗi phân loại, theo định nghĩa của bạn, cung cấp ước tính tổng vì nó sử dụng p_i lớn nhất để tính toán giá trị của nó.

+0

Tôi không thể thấy cách bạn có những vấn đề đó trong việc tách một nút ... Phân loại rừng ngẫu nhiên sử dụng tạp chất Gini và đã được báo cáo có độ chính xác cao hơn hầu hết các phân loại dựa trên cây khác. – Benjamin

+2

@Benjamin: Tôi không thấy gì trong câu hỏi cụ thể để tách nút. – Davidann

2

Tôi thấy this description of impurity measures khá hữu ích. Trừ khi bạn đang thực hiện từ đầu, hầu hết các hiện thực hiện tại sử dụng một biện pháp tạp chất được xác định trước. Cũng lưu ý rằng chỉ số Gini không phải là thước đo trực tiếp về tạp chất, không phải trong công thức ban đầu của nó và rằng có nhiều hơn những gì bạn liệt kê ở trên.

Tôi không chắc rằng tôi hiểu mối quan ngại về số lượng nhỏ và thước đo tạp chất Gini ... Tôi không thể tưởng tượng được điều này sẽ xảy ra như thế nào khi tách nút.

0

Tôi đã thấy nhiều nỗ lực khác nhau khi được hướng dẫn không chính thức về điều này, từ "nếu bạn sử dụng một trong các chỉ số thông thường, sẽ không có nhiều khác biệt", với nhiều đề xuất cụ thể hơn. Trong thực tế, cách duy nhất để biết với sự chắc chắn biện pháp nào hoạt động tốt nhất là thử tất cả các ứng cử viên.

Dù sao, đây là một số quan điểm từ Salford Systems (các nhà cung cấp Toán):

Do Splitting Rules Really Matter?

3

Sự khác biệt giữa entropy và các biện pháp tạp chất khác, và trong thực tế thường là sự khác biệt giữa cách tiếp cận lý thuyết thông tin trong máy học và các cách tiếp cận khác, đó là entropy đã được chứng minh bằng toán học để nắm bắt khái niệm 'thông tin'. Có nhiều định lý phân loại (định lý chứng minh một hàm cụ thể hoặc đối tượng toán học là đối tượng duy nhất thỏa mãn một tập hợp các tiêu chuẩn) cho các biện pháp entropy chính thức hóa các lập luận triết học cho thấy ý nghĩa của chúng như các biện pháp 'thông tin'.

Tương phản điều này với các cách tiếp cận khác (đặc biệt là các phương pháp thống kê) được chọn không phải vì lý giải triết học của chúng, mà chủ yếu cho sự chứng minh thực nghiệm của chúng - dường như chúng hoạt động tốt trong các thí nghiệm. Lý do tại sao chúng hoạt động tốt là vì chúng chứa các giả định bổ sung có thể xảy ra để giữ tại thời điểm thử nghiệm. Trong điều kiện thực tế, điều này có nghĩa là các biện pháp entropy (A) không thể vượt quá khi được sử dụng hợp lý vì chúng không có bất kỳ giả định nào về dữ liệu, (B) có nhiều khả năng hoạt động tốt hơn ngẫu nhiên vì chúng tổng quát hóa bất kỳ tập dữ liệu nhưng (C) hiệu suất cho các tập dữ liệu cụ thể có thể không tốt bằng các biện pháp áp dụng các giả định.

Khi quyết định các biện pháp sử dụng trong học máy, nó thường đi xuống dài hạn so với lợi ích ngắn hạn và khả năng bảo trì. Các biện pháp Entropy thường hoạt động lâu dài bằng (A) và (B), và nếu xảy ra sự cố thì sẽ dễ dàng hơn để theo dõi và giải thích lý do (ví dụ: một lỗi có được dữ liệu đào tạo).Các cách tiếp cận khác, bằng (C), có thể mang lại lợi ích ngắn hạn, nhưng nếu chúng ngừng hoạt động, có thể rất khó phân biệt, nói một lỗi trong cơ sở hạ tầng với sự thay đổi chính xác trong dữ liệu mà các giả định không còn giữ.

Ví dụ điển hình khi các mô hình đột ngột ngừng hoạt động là cuộc khủng hoảng tài chính toàn cầu. Các ngân hàng được thưởng cho lợi nhuận ngắn hạn, vì vậy họ đã viết các mô hình thống kê có thể thực hiện tốt các mô hình lý thuyết thông tin ngắn hạn và phần lớn bị bỏ qua.

Các vấn đề liên quan