2009-12-09 42 views
5

Tôi hiện đang xây dựng với một vấn đề học máy trong khi tôi phải đối phó với các bộ dữ liệu không cân bằng lớn. Nghĩa là, có sáu lớp ('1', '2' ... '6'). Thật không may, có một ví dụ cho lớp '1' 150 ví dụ/trường hợp, cho '2' 90 trường hợp và cho lớp '3' chỉ 20. Tất cả các lớp khác không thể được "đào tạo" vì không có trường hợp có sẵn cho các lớp này.Bộ lọc mẫu của WEKA - Cách diễn giải kết quả

Cho đến nay, tôi đã tìm ra rằng WEKA (bộ công cụ học máy mà tôi đang sử dụng) cung cấp bộ lọc "Lấy mẫu lại" được giám sát này. Khi tôi áp dụng bộ lọc này với 'noReplacement' = false và 'bialToUniformClass' = 1.0 thì kết quả này trong một tập dữ liệu, trong đó số lượng các cá thể đẹp và gần như bằng nhau (đối với lớp '1' .. '3' và các số khác ở lại trống).

Câu hỏi của tôi bây giờ là: WEKA và bộ lọc này tạo ra các trường hợp "mới"/bổ sung cho các lớp khác nhau như thế nào.

Cảm ơn bạn rất nhiều trước vì bất kỳ gợi ý hoặc đề xuất nào.

Cheers Julian

Trả lời

2

Sử dụng bộ lọc Resample giám sát WEKA của bổ sung các trường hợp về một lớp. Điều này được thực hiện bằng cách đơn giản thêm các cá thể từ lớp chỉ có vài phiên bản nhiều lần vào tập dữ liệu kết quả.

Do đó, tập dữ liệu kết quả được thiên vị mạnh về mặt lớp học mà chỉ có một vài mẫu có sẵn.

1

Không. Nó đang lấy lại các cá thể hiện có. Nếu bạn có một cá thể lớp-2 và yêu cầu lấy lại mẫu có độ lệch 1.0, bạn có thể mong đợi N bản sao của cá thể đó và N phiên bản khác của từng loại khác mà đã có dữ liệu.

1

Hãy thử với bộ lọc SMOTE về tiền xử lý.

Nó cân bằng số liệu của bạn bằng cách tạo dữ liệu mới cho lớp phụ.

Các vấn đề liên quan