Vì vậy, hãy tưởng tượng có quyền truy cập vào đủ dữ liệu (hàng triệu điểm dữ liệu để đào tạo và thử nghiệm) với chất lượng đủ. Hãy bỏ qua khái niệm trôi dạt cho bây giờ và giả sử dữ liệu tĩnh và không thay đổi theo thời gian. Liệu nó thậm chí có ý nghĩa để sử dụng tất cả các dữ liệu đó về chất lượng của mô hình?Kích thước tập dữ liệu có ảnh hưởng đến thuật toán học máy không?
Brain and Webb (http://www.csse.monash.edu.au/~webb/Files/BrainWebb99.pdf) đã bao gồm một số kết quả về thử nghiệm với các kích thước tập dữ liệu khác nhau. Các thuật toán được thử nghiệm của họ hội tụ để có phần ổn định sau khi đào tạo với 16.000 hoặc 32.000 datapoints. Tuy nhiên, vì chúng ta đang sống trong thế giới dữ liệu lớn, chúng tôi có quyền truy cập vào bộ dữ liệu của hàng triệu điểm, vì vậy bài báo có phần liên quan nhưng rất lỗi thời.
Có nghiên cứu nào gần đây về tác động của kích thước tập dữ liệu lên thuật toán học tập (Naive Bayes, Cây quyết định, SVM, mạng thần kinh, v.v.).
- Khi nào thuật toán học tập hội tụ vào một mô hình ổn định nhất định mà dữ liệu nào không làm tăng chất lượng nữa?
- Nó có thể xảy ra sau 50.000 datapoints, hoặc có thể sau 200.000 hoặc chỉ sau 1.000.000?
- Có quy tắc nào không?
- Hoặc có thể không có cách nào để một thuật toán hội tụ thành một mô hình ổn định, đến một trạng thái cân bằng nhất định?
Tại sao tôi hỏi điều này? Hãy tưởng tượng một hệ thống có bộ nhớ hạn chế và một số lượng lớn các mô hình độc đáo (hàng nghìn mô hình có bộ dữ liệu duy nhất của riêng chúng) và không có cách nào tăng dung lượng lưu trữ. Vì vậy, hạn chế kích thước của tập dữ liệu là rất quan trọng.
Bất kỳ suy nghĩ hoặc nghiên cứu nào về điều này?
Luận án của bạn có sẵn trực tuyến không? –
Giải thích rất tốt, kỹ lưỡng, rõ ràng và chính xác những gì tôi đang tìm kiếm. Tôi sẽ thêm vào @EricEijkelenboom: Chúng tôi có thể tìm thấy luận án của bạn trực tuyến không? Tôi rất thích nó. – user3354890
Vâng, tôi cũng sẽ thực sự quan tâm đến luận án của bạn. Lời giải thích này khá là hay. – CodingButStillAlive