2012-04-16 64 views
13

Tôi đang sử dụng KNN để phân loại chữ số viết tay. Tôi cũng đã thực hiện PCA để giảm kích thước. Từ 256 tôi đã đi đến 200. Nhưng tôi chỉ nhận thấy như, mất 0,10% thông tin. Tôi đã xóa 56 thứ nguyên. Không nên mất lớn hơn? Chỉ khi tôi rơi xuống 5 kích thước tôi mới nhận được khoản lỗ ~ 20%. Điều này có bình thường không?Thuật toán PCA và KNN

+0

Loại điều đó phổ biến trong nhiều loại ứng dụng. Nó được gọi là điểm lợi nhuận giảm dần. –

Trả lời

6

Bạn đang nói rằng sau khi xóa 56 thứ nguyên, bạn đã mất gần như không có thông tin? Tất nhiên, đó là điểm của PCA! Principal Component Analysis, như trạng thái tên, giúp bạn xác định thứ nguyên nào mang thông tin. Và bạn có thể loại bỏ phần còn lại, làm cho phần lớn nhất của nó.

Tôi muốn một số ví dụ, trong phân tích gen, tôi đã đọc các giấy tờ mà kích thước được giảm từ 40'000 xuống 100 với PCA, sau đó chúng thực hiện một số công cụ kỳ diệu và có bộ phân loại tuyệt vời với 19 kích thước. Điều này ngầm cho bạn biết rằng họ đã mất hầu như không có thông tin khi họ loại bỏ kích thước 39'900!

+2

ok cảm ơn. Tôi mới học máy –

0

Điều đó là bình thường, có (và giống như Fezvez đã nói điểm của những gì bạn đã làm). Trường hợp của bạn thực sự là một ví dụ tốt, nơi bạn có thể xem như thế nào là có thể.

Hãy xem dữ liệu của bạn (điều đó luôn quan trọng trong học máy, biết dữ liệu của bạn). Nếu bạn có hình ảnh chữ viết tay màu đen trên nền trắng, có khả năng cao là các pixel ở một số góc có màu trắng cho tất cả các mẫu (tôi đã có ở một góc khi tôi đã học máy bằng chữ số viết tay). Vì vậy, thực sự không có thông tin nào trong pixel đó. Nếu bạn thả nó như là đầu vào cho KNN hoặc ANN của bạn hoặc bất cứ điều gì, bạn sẽ có kết quả tương tự.