2012-06-02 19 views
10

Tôi đã tìm kiếm trên google về vấn đề này và tôi không thể tìm thấy một cái gì đó giải thích thuật toán này một cách đơn giản nhưng chi tiết.Tại sao thuật toán C4.5 sử dụng cắt tỉa để giảm cây quyết định và việc cắt tỉa ảnh hưởng như thế nào đến tính chính xác của dự đoán?

Ví dụ, tôi biết thuật toán id3 không sử dụng cắt tỉa ở tất cả, vì vậy nếu bạn có một đặc tính liên tục, tỷ lệ thành công dự đoán sẽ rất thấp.

Vì vậy, C4.5 để hỗ trợ các đặc điểm liên tục, nó sử dụng cắt tỉa, nhưng đây có phải là lý do duy nhất không?

Ngoài ra tôi thực sự không thể hiểu được trong ứng dụng WEKA, làm thế nào chính xác yếu tố tự tin ảnh hưởng đến hiệu quả của các dự đoán. Yếu tố tin cậy càng nhỏ thì thuật toán cắt tỉa càng nhiều, tuy nhiên mối tương quan giữa việc cắt tỉa và độ chính xác của dự đoán là gì? Bạn càng tỉa, thì dự đoán càng tốt hay tệ hơn thì sao?

Cảm ơn

Trả lời

18

Cắt tỉa là cách giảm kích thước của cây quyết định. Điều này sẽ làm giảm độ chính xác trên dữ liệu đào tạo, nhưng (nói chung) tăng độ chính xác trên dữ liệu không nhìn thấy. Nó được sử dụng để giảm thiểu overfitting, nơi bạn sẽ đạt được độ chính xác hoàn hảo về dữ liệu đào tạo, nhưng mô hình (tức là cây quyết định) bạn học rất cụ thể đến mức không áp dụng cho bất kỳ dữ liệu đào tạo nào.

Nói chung, nếu bạn tăng tỉa cành, độ chính xác trên tập huấn luyện sẽ thấp hơn. Tuy nhiên, WEKA cung cấp nhiều thứ khác nhau để ước tính độ chính xác tốt hơn, cụ thể là đào tạo/tách kiểm tra hoặc xác thực chéo. Ví dụ: nếu bạn sử dụng xác thực chéo, bạn sẽ khám phá ra "điểm nhạy" của yếu tố tự tin cắt tỉa ở đâu đó đủ để làm cho cây quyết định đã học đủ chính xác về dữ liệu thử nghiệm, nhưng không hy sinh quá nhiều chính xác dữ liệu đào tạo. Tuy nhiên, nơi mà vị trí ngọt ngào này sẽ phụ thuộc vào vấn đề thực tế của bạn và cách duy nhất để xác định nó là đáng tin cậy.

Các vấn đề liên quan