Tôi biết điều này đã được hỏi một thời gian trước, nhưng tôi muốn trả lời vì bạn có thể thấy câu trả lời của tôi hữu ích.
Như những người khác đã đề cập, bạn có thể cân nhắc sử dụng các trọng số khác nhau cho các lớp dân tộc thiểu số hoặc sử dụng các hình phạt phân loại sai khác nhau. Tuy nhiên, có một cách thông minh hơn để xử lý các tập dữ liệu không cân bằng.
Bạn có thể sử dụng đập (S ynthetic M inority O ver-lấy mẫu Te chnique) thuật toán để tạo ra dữ liệu tổng hợp cho lớp thiểu số. Nó là một thuật toán đơn giản có thể xử lý một số tập dữ liệu mất cân bằng khá tốt.
Trong mỗi lần lặp của thuật toán, SMOTE xem xét hai trường hợp ngẫu nhiên của lớp thiểu số và thêm một ví dụ nhân tạo của cùng một lớp ở đâu đó ở giữa. Thuật toán tiếp tục tiêm tập dữ liệu với các mẫu cho đến khi hai lớp trở nên cân bằng hoặc một số tiêu chí khác (ví dụ: thêm một số ví dụ nhất định). Dưới đây bạn có thể tìm thấy một hình ảnh mô tả những gì các thuật toán không cho một tập dữ liệu đơn giản trong không gian tính năng 2D.
Kết hợp trọng lượng với lớp dân tộc thiểu số là trường hợp đặc biệt của thuật toán này. Khi bạn kết hợp trọng số $ w_i $ với cá thể i, về cơ bản bạn đang thêm các trường hợp $ w_i - 1 $ vào đầu của cá thể i!
Những gì bạn cần làm là để tăng thêm số liệu ban đầu của bạn với các mẫu được tạo ra bởi thuật toán này, và huấn luyện SVM với tập dữ liệu mới này. Bạn cũng có thể tìm thấy nhiều triển khai trực tuyến bằng các ngôn ngữ khác nhau như Python và Matlab.
Đã có các phần mở rộng khác của thuật toán này, tôi có thể chỉ cho bạn nhiều tài liệu hơn nếu bạn muốn.
Để kiểm tra phân loại bạn cần để phân chia các tập dữ liệu vào thử nghiệm và đào tạo, thêm trường hợp tổng hợp để tập tàu (không thêm bất kỳ để kiểm tra SET), đào tạo các mô hình trên bộ tàu, và cuối cùng kiểm tra nó trên tập kiểm tra. Nếu bạn xem xét các trường hợp được tạo ra khi bạn đang thử nghiệm, bạn sẽ kết thúc với độ chính xác (và chính xác cao) thiên vị (và ridiculously) và nhớ lại.
có một câu hỏi tương tự trong trang Câu hỏi thường gặp có thể giúp: Hỏi: Dữ liệu của tôi không cân bằng. Libsvm có thể xử lý các vấn đề như vậy không? http://www.csie.ntu.edu.tw/~cjlin/libsvm/faq.html#f410 – McKelvin