2013-04-03 29 views
14

Tôi đang cố gắng phân loại một số dữ liệu EEG bằng cách sử dụng mô hình hồi quy logistic (điều này dường như phân loại tốt nhất dữ liệu của tôi). Dữ liệu tôi có là từ thiết lập EEG đa kênh nên bản chất tôi có ma trận 63 x 116 x 50 (đó là kênh x điểm thời gian x số lần thử (có hai loại dùng thử 50), tôi đã định hình lại thành vector dài, một cho mỗi thử nghiệmtìm các tính năng quan trọng để phân loại

Điều tôi muốn làm là sau khi phân loại để xem các tính năng nào hữu ích nhất trong việc phân loại các thử nghiệm. Làm cách nào tôi có thể làm điều đó và có thể kiểm tra ý nghĩa của các thử nghiệm này ví dụ để nói rằng phân loại được lái xe chủ yếu bởi N-feature và đây là những tính năng x đến z.Vì vậy, tôi có thể ví dụ nói rằng kênh 10 tại thời điểm 90-95 là quan trọng hoặc quan trọng cho việc phân loại. Vậy điều này có thể xảy ra hay tôi đang đặt câu hỏi sai?

bất kỳ nhận xét hoặc tài liệu tham khảo giấy nào được đánh giá cao.

Trả lời

33

Scikit-học bao gồm khá một vài phương pháp để xếp hạng tính năng, trong đó có:

(xem thêm tại http://scikit-learn.org/stable/modules/feature_selection.html)

Trong số đó, tôi chắc chắn khuyên bạn nên đưa ra Phép hồi quy logistic ngẫu nhiên một ảnh. Theo kinh nghiệm của tôi, nó luôn hoạt động tốt hơn các phương pháp khác và rất ổn định. Giấy về điều này: http://arxiv.org/pdf/0809.2932v2.pdf

Edit: Tôi đã viết một loạt bài đăng trên blog về phương pháp lựa chọn tính năng khác nhau và ưu và nhược điểm, mà có lẽ là hữu ích cho việc trả lời câu hỏi này một cách chi tiết hơn:

+1

Các mô hình bị phạt L1 không ngẫu nhiên cũng rất đẹp (tức là L1 bị trừng phạt hồi quy logistic và LinearSVC). Tôi chưa có nhiều kinh nghiệm với các phiên bản ngẫu nhiên. –

+0

Gợi ý thứ hai của AndreasMueller, L1-penalty SVM là một thuật toán lựa chọn tính năng tốt đáng kinh ngạc cho một số tác vụ (trông không có gì giống như đọc EEG, vì vậy YMMV). [Ví dụ về phân loại tài liệu] (http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html#example-document-classification-20newsgroups-py) thực hiện điều này, xem 'L1LinearSVC' ở đó. –

+1

Theo kinh nghiệm của tôi, trường hợp các phương thức không ngẫu nhiên có thể thất bại là nơi bạn có các tính năng đa cộng hưởng mạnh, trong trường hợp một số tính năng có thể nằm trong số các tính năng hàng đầu trên một tập hợp con dữ liệu. –

Các vấn đề liên quan