2014-09-04 18 views
11

Vì vậy, hãy tưởng tượng có quyền truy cập vào đủ dữ liệu (hàng triệu điểm dữ liệu để đào tạo và thử nghiệm) với chất lượng đủ. Hãy bỏ qua khái niệm trôi dạt cho bây giờ và giả sử dữ liệu tĩnh và không thay đổi theo thời gian. Liệu nó thậm chí có ý nghĩa để sử dụng tất cả các dữ liệu đó về chất lượng của mô hình?Kích thước tập dữ liệu có ảnh hưởng đến thuật toán học máy không?

Brain and Webb (http://www.csse.monash.edu.au/~webb/Files/BrainWebb99.pdf) đã bao gồm một số kết quả về thử nghiệm với các kích thước tập dữ liệu khác nhau. Các thuật toán được thử nghiệm của họ hội tụ để có phần ổn định sau khi đào tạo với 16.000 hoặc 32.000 datapoints. Tuy nhiên, vì chúng ta đang sống trong thế giới dữ liệu lớn, chúng tôi có quyền truy cập vào bộ dữ liệu của hàng triệu điểm, vì vậy bài báo có phần liên quan nhưng rất lỗi thời.

Có nghiên cứu nào gần đây về tác động của kích thước tập dữ liệu lên thuật toán học tập (Naive Bayes, Cây quyết định, SVM, mạng thần kinh, v.v.).

  1. Khi nào thuật toán học tập hội tụ vào một mô hình ổn định nhất định mà dữ liệu nào không làm tăng chất lượng nữa?
  2. Nó có thể xảy ra sau 50.000 datapoints, hoặc có thể sau 200.000 hoặc chỉ sau 1.000.000?
  3. Có quy tắc nào không?
  4. Hoặc có thể không có cách nào để một thuật toán hội tụ thành một mô hình ổn định, đến một trạng thái cân bằng nhất định?

Tại sao tôi hỏi điều này? Hãy tưởng tượng một hệ thống có bộ nhớ hạn chế và một số lượng lớn các mô hình độc đáo (hàng nghìn mô hình có bộ dữ liệu duy nhất của riêng chúng) và không có cách nào tăng dung lượng lưu trữ. Vì vậy, hạn chế kích thước của tập dữ liệu là rất quan trọng.

Bất kỳ suy nghĩ hoặc nghiên cứu nào về điều này?

Trả lời

17

Tôi đã làm luận văn thạc sĩ về chủ đề này vì vậy tôi tình cờ biết một chút về nó.

Trong một vài từ trong phần đầu tiên của luận án, tôi lấy một số tập dữ liệu thực sự lớn (~ 5.000.000 mẫu) và kiểm tra một số thuật toán học máy trên chúng bằng cách tìm hiểu% khác nhau của tập dữ liệu (đường cong học tập). Giả thuyết tôi đã thực hiện (tôi đã sử dụng chủ yếu là học scikit) không phải là để tối ưu hóa các tham số, sử dụng các tham số mặc định cho các thuật toán (tôi đã đưa ra giả thuyết này vì lý do thực tế, mà không tối ưu hóa một số mô phỏng đã có nhiều hơn nữa hơn 24 giờ trên một cụm).

Điều đầu tiên cần lưu ý là, hiệu quả, mọi phương pháp sẽ dẫn đến một cao nguyên cho một phần nhất định của tập dữ liệu. Bạn không thể tuy nhiên rút ra kết luận về số hiệu quả của số lượng mẫu nó đưa cho một cao nguyên để đạt được vì những lý do sau đây:

  • Mỗi bộ dữ liệu là khác nhau, cho tập dữ liệu thực sự đơn giản họ có thể cung cấp cho bạn gần như tất cả mọi thứ họ có để cung cấp với 10 mẫu trong khi một số vẫn có cái gì đó để tiết lộ sau 12.000 mẫu (Xem bộ dữ liệu Higgs trong ví dụ của tôi ở trên).
  • Số lượng mẫu trong tập dữ liệu là tùy ý, trong luận án của tôi, tôi đã thử nghiệm một tập dữ liệu với các mẫu sai chỉ được thêm vào để gây rối với các thuật toán.

Tuy nhiên, chúng tôi có thể phân biệt hai loại thuật toán khác nhau sẽ có hành vi khác nhau: mô hình tham số (Tuyến tính, ...) và không tham số (Random Forest, ...).Nếu một cao nguyên đạt được với một tham số không có nghĩa là phần còn lại của tập dữ liệu là "vô dụng". Như bạn có thể thấy trong khi phương pháp Lightning đạt đến một cao nguyên rất sớm trên hình ảnh của tôi mà không có nghĩa là tập dữ liệu không có bất cứ điều gì còn lại để cung cấp nhưng nhiều hơn đó là tốt nhất mà phương pháp có thể làm. Đó là lý do tại sao các phương pháp phi tham số hoạt động tốt nhất khi mô hình trở nên phức tạp và thực sự có thể hưởng lợi từ một số lượng lớn các mẫu đào tạo.

Vì vậy, khi đã đặt câu hỏi:

  1. Xem ở trên.

  2. Có, tất cả đều phụ thuộc vào nội dung bên trong tập dữ liệu.

  3. Đối với tôi, quy tắc chung duy nhất là đi cùng với xác thực chéo. Nếu bạn đang ở trong tình huống mà bạn nghĩ rằng bạn sẽ sử dụng 20.000 hoặc 30.000 mẫu bạn thường trong trường hợp xác thực chéo không phải là một vấn đề. Trong luận án của tôi, tôi tính toán độ chính xác của các phương pháp của tôi trên một tập kiểm tra, và khi tôi không nhận thấy một sự cải thiện đáng kể, tôi đã xác định số lượng mẫu cần thiết để đạt được điều đó. Như tôi đã nói có một số xu hướng mà bạn có thể quan sát (phương pháp tham số có xu hướng bão hòa nhanh hơn không tham số)

  4. Đôi khi tập dữ liệu không đủ lớn bạn có thể lấy tất cả các điểm dữ liệu bạn có và vẫn còn chỗ để cải thiện nếu bạn có tập dữ liệu lớn hơn. Trong luận án của tôi không có tối ưu hóa về các tham số, các tập dữ liệu Cifar-10 hành xử theo cách đó, ngay cả sau khi 50.000 không có thuật toán của tôi đã hội tụ.

Tôi muốn thêm tối ưu hóa các tham số của thuật toán có ảnh hưởng lớn đến tốc độ hội tụ đến cao nguyên, nhưng yêu cầu một bước khác để xác thực chéo.

Câu cuối cùng của bạn liên quan chặt chẽ đến chủ đề của luận án, nhưng đối với tôi, nó liên quan nhiều hơn đến bộ nhớ và thời gian sẵn có để thực hiện các tác vụ ML. (Như thể bạn bao gồm ít hơn toàn bộ tập dữ liệu bạn sẽ có một yêu cầu bộ nhớ nhỏ hơn và nó sẽ nhanh hơn). Về điều đó, khái niệm "bộ lõi" thực sự có thể thú vị đối với bạn.

Tôi hy vọng tôi có thể giúp bạn, tôi phải dừng lại vì tôi có thể tiếp tục và về điều đó nhưng nếu bạn cần giải thích thêm, tôi rất sẵn lòng trợ giúp.

+2

Luận án của bạn có sẵn trực tuyến không? –

+1

Giải thích rất tốt, kỹ lưỡng, rõ ràng và chính xác những gì tôi đang tìm kiếm. Tôi sẽ thêm vào @EricEijkelenboom: Chúng tôi có thể tìm thấy luận án của bạn trực tuyến không? Tôi rất thích nó. – user3354890

+0

Vâng, tôi cũng sẽ thực sự quan tâm đến luận án của bạn. Lời giải thích này khá là hay. – CodingButStillAlive

Các vấn đề liên quan