2012-05-16 50 views
9

Tôi đang phân loại dữ liệu nhị phân và tôi muốn biết những ưu điểm và nhược điểm của việc sử dụng máy vectơ hỗ trợ trên cây quyết định và thuật toán tăng cường thích ứng.Ưu điểm của SVM trên cây decion và thuật toán AdaBoost

+1

Tại sao thẻ này được gắn thẻ là Java? –

+0

Bạn có bao nhiêu điểm dữ liệu và tính năng? ồn ào, thưa thớt? Tôi khuyên bạn nên bắt đầu với nhanh-tuyến tính SVM [scikit-học SGDClassifier] (http://scikit-learn.org/stable/modules/sgd.html). – denis

Trả lời

14

Điều bạn có thể muốn làm là sử dụng weka, đây là một gói hay mà bạn có thể sử dụng để cắm dữ liệu của mình và sau đó thử một loạt các trình phân loại học máy khác nhau để xem cách hoạt động của từng bộ. Đó là một con đường tốt cho những người học máy.

Không biết gì về dữ liệu cụ thể của bạn hoặc vấn đề phân loại bạn đang cố gắng giải quyết, tôi thực sự không thể chỉ nói cho bạn những điều ngẫu nhiên mà tôi biết về từng phương pháp. Điều đó nói rằng, đây là một bãi chứa não và liên kết đến một số slide học máy hữu ích.

Adaptive Boosting sử dụng một ủy ban phân loại cơ sở yếu để bỏ phiếu cho việc phân loại lớp của điểm mẫu. Các bộ phân loại cơ bản có thể là các gốc quyết định, cây quyết định, SVM, vv .. Nó có một cách tiếp cận lặp đi lặp lại. Trên mỗi lần lặp lại - nếu ủy ban có thỏa thuận và chính xác về việc gán lớp cho một mẫu cụ thể, thì nó trở nên giảm trọng số (ít quan trọng để có quyền trong lần lặp tiếp theo), và nếu ủy ban không thỏa thuận thì nó sẽ trở thành tăng trọng (quan trọng hơn để phân loại ngay trên lần lặp tiếp theo). Adaboost được biết đến là có sự tổng quát tốt (không overfitting).

SVMs là lần thử đầu tiên hữu ích. Ngoài ra, bạn có thể sử dụng các hạt nhân khác nhau với SVM và không chỉ là ranh giới quyết định tuyến tính mà còn có nhiều hình dạng thú vị hơn. Và nếu bạn đặt L1-regularization trên nó (các biến slack) thì bạn không chỉ có thể ngăn chặn overfitting, mà còn, bạn có thể phân loại dữ liệu không thể tách rời.

Decision trees hữu ích vì tính giải thích của chúng chỉ bằng bất kỳ ai. Rất dễ dàng để sử dụng chúng. Sử dụng cây cũng có nghĩa là bạn cũng có thể nhận được một số ý tưởng về mức độ quan trọng của một tính năng cụ thể để tạo ra cây đó. Một cái gì đó bạn có thể muốn kiểm tra là cây phụ gia (như MART).

+1

"nếu ủy ban có thỏa thuận về việc gán lớp cho một mẫu cụ thể thì nó sẽ bị giảm trọng số". Điều này không đúng. Nếu ủy ban bỏ phiếu một cách chính xác (so với nhãn sự thật mặt đất) thì nó sẽ giảm cân. Ngược lại để tăng cân. –

+0

Điểm tốt. Đã sửa trong bài đăng. – kitchenette

Các vấn đề liên quan