2011-01-06 49 views
25

Tôi muốn biết đường cong học tập trong học máy là gì. Cách tiêu chuẩn của âm mưu đó là gì? Tôi có nghĩa là những gì nên là trục x và y của cốt truyện của tôi?Đường cong học tập trong học máy là gì?

+1

Chưa bao giờ nghe nói về một đường cong học tập. Bạn có nghĩa là một đường cong ROC? http://en.wikipedia.org/wiki/Receiver_operating_characteristic – Stompchicken

+4

Không, đường cong học tập và đường cong ROC không đồng nghĩa, như tôi cố gắng mô tả dưới đây. – MattBagg

+0

@MattBagg: bạn hoàn toàn đúng, tôi đã quay lại trước khi chỉnh sửa. – Amro

Trả lời

34

Tôi nghĩ rằng nó thường đề cập đến một âm mưu của độ chính xác dự báo/lỗi vs các đào tạo thiết lập kích thước (ví dụ: làm thế nào tốt hơn không mô hình được dự đoán tại các mục tiêu như bạn sự gia tăng số trường hợp sử dụng để đào tạo nó)

alt text

+2

Xem thêm: http://www.astroml.org/sklearn_tutorial/practical.html # learning-curves – alfa

+2

Ngoài ra còn có một bài viết mới hơn: http://scikit-learn.org/stable/modules/learning_curve.html –

13

Một số người sử dụng "đường cong học tập" để tham chiếu đến lỗi của quy trình lặp như một hàm của số lặp, tức là nó minh họa sự hội tụ của một số hàm tiện ích. Trong ví dụ dưới đây, tôi vẽ sai số trung bình (MSE) của thuật toán ít nhất trung bình (LMS) như một hàm của số lặp. Điều đó minh họa cách LMS nhanh chóng "học", trong trường hợp này, phản ứng xung của kênh.

learningcurves.png

7

về cơ bản, một đường cong học máy cho phép bạn tìm các điểm mà từ đó các thuật toán bắt đầu học. Nếu bạn lấy một đường cong và sau đó cắt tiếp tuyến dốc cho đạo hàm tại điểm mà nó bắt đầu đạt đến hằng số là khi nó bắt đầu xây dựng khả năng học tập của nó.

Tùy thuộc vào cách trục x và trục của bạn được ánh xạ, một trong các trục của bạn sẽ bắt đầu tiếp cận giá trị không đổi trong khi các giá trị của trục khác sẽ tiếp tục tăng. Đây là lúc bạn bắt đầu thấy một số việc học. Toàn bộ đường cong khá nhiều cho phép bạn đo tốc độ mà thuật toán của bạn có thể học. Điểm tối đa thường là khi độ dốc bắt đầu rút. Bạn có thể thực hiện một số biện pháp phái sinh đến điểm tối đa/tối thiểu.

Vì vậy, từ các ví dụ trên, bạn có thể thấy rằng đường cong đang dần có xu hướng hướng tới giá trị không đổi. Ban đầu nó bắt đầu khai thác việc học của mình thông qua các ví dụ đào tạo và độ dốc mở rộng tại điểm tối đa/tối đa, nơi nó có xu hướng tiếp cận gần hơn và gần hơn về phía trạng thái không đổi. Tại thời điểm này, nó có thể nhận các ví dụ mới từ dữ liệu thử nghiệm và tìm các kết quả mới và độc đáo từ dữ liệu. Bạn sẽ có các phép đo trục x/y cho epochs so với lỗi.

27

Tôi chỉ muốn để lại một lưu ý ngắn gọn về câu hỏi cũ này để chỉ ra rằng đường cong học tập và đường cong ROC không đồng nghĩa.

Như đã nêu trong các câu trả lời khác cho câu hỏi này, một đường cong học thông thường mô tả sự cải tiến trong hiệu suất trên trục thẳng đứng khi có sự thay đổi trong tham số khác (trên trục ngang), chẳng hạn như kích thước tập huấn luyện (trong học máy) hoặc lặp lại/thời gian (trong cả máy và học tập sinh học). Một điểm nổi bật là nhiều thông số của mô hình đang thay đổi tại các điểm khác nhau trên lô. Các câu trả lời khác ở đây đã làm tốt công việc minh họa các đường cong học tập.

(Ngoài ra còn có một ý nghĩa khác của đường cong học tập trong sản xuất công nghiệp, bắt nguồn từ quan sát trong những năm 1930 rằng số giờ lao động cần thiết để sản xuất một đơn vị riêng lẻ giảm theo tỷ lệ đồng đều khi số lượng đơn vị sản xuất tăng gấp đôi. là không thực sự liên quan nhưng đáng chú ý cho đầy đủ và để tránh nhầm lẫn trong các tìm kiếm web)

Ngược lại, Receiver Operating Characteristic đường cong, hoặc ROC đường cong, không hiển thị học tập. nó cho thấy hiệu suất.Đường cong ROC là mô tả đồ họa về hiệu suất của trình phân loại cho thấy sự cân bằng giữa tăng tỷ lệ thực dương (trên trục thẳng đứng) và tăng tỷ lệ dương giả (trên trục hoành) khi ngưỡng phân biệt đối xử của trình phân loại thay đổi. Vì vậy, chỉ có một tham số duy nhất (ngưỡng quyết định/phân biệt đối xử) được kết hợp với mô hình đang thay đổi tại các điểm khác nhau trên lô. Đường cong ROC này (from Wikipedia) cho thấy hiệu suất của ba trình phân loại khác nhau.

ROC curve, see previous link for CC licensing

Không có học tập được mô tả ở đây, nhưng thay vì thực hiện liên quan đến hai lớp khác nhau của thành công/lỗi như ngưỡng quyết định của phân loại được thực hiện khoan dung hơn/nghiêm ngặt. Bằng cách nhìn vào khu vực dưới đường cong, chúng ta có thể thấy một dấu hiệu tổng thể về khả năng của trình phân loại để phân biệt các lớp. Chỉ số diện tích dưới đường cong này không nhạy cảm với số lượng thành viên trong hai lớp, do đó, nó có thể không phản ánh hiệu suất thực tế nếu thành viên của lớp không cân bằng. Đường cong ROC có nhiều phụ đề và độc giả quan tâm có thể tham khảo:

Fawcett, Tom. "ROC graphs: Notes and practical considerations for researchers." Machine Learning 31 (2004): 1-38.

Swets, John A., Robyn M. Dawes, and John Monahan. "Better decisions through Science." Scientific American (2000): 83.

+0

+1 cũng được giải thích – Amro

2

Làm thế nào bạn có thể xác định cho một mô hình cho dù nhiều điểm đào tạo sẽ rất hữu ích? Một chẩn đoán hữu ích cho việc này là học đường cong.

• Đồ thị của tính chính xác dự báo/lỗi vs kích thước tập huấn luyện (ví dụ: làm thế nào tốt hơn không mô hình được dự đoán tại các mục tiêu như bạn biết số lượng tăng các trường hợp sử dụng để đào tạo nó)

• Đường cong học tập thông thường mô tả cải thiện hiệu suất trên trục tung khi có thay đổi trong thông số khác (trên trục hoành), chẳng hạn như kích thước tập huấn (trong học máy) hoặc lặp/thời gian

• Đường cong học tập thường hữu ích cho cốt truyện để kiểm tra hoặc cải thiện hiệu suất san bằng thuật toán

• Học đường cong âm mưu có thể giúp chẩn đoán các vấn đề thuật toán của bạn sẽ được mắc

Cá nhân, dưới đây hai liên kết đã giúp tôi hiểu rõ hơn về khái niệm này

Learning Curve

Sklearn Learning Curve

Các vấn đề liên quan