Regularization áp dụng hình phạt để tăng cường độ của giá trị tham số để giảm overfitting. Khi bạn đào tạo một mô hình như mô hình hồi quy logistic, bạn đang lựa chọn các tham số cho phù hợp nhất với dữ liệu. Điều này có nghĩa là giảm thiểu lỗi giữa những gì mô hình dự đoán cho biến phụ thuộc của bạn cho dữ liệu của bạn so với những gì biến phụ thuộc của bạn thực sự là.
Sự cố xảy ra khi bạn có nhiều tham số (nhiều biến độc lập) nhưng không quá nhiều dữ liệu. Trong trường hợp này, mô hình sẽ thường điều chỉnh các giá trị tham số thành idiosyncrasies trong dữ liệu của bạn - điều đó có nghĩa là nó phù hợp với dữ liệu của bạn gần như hoàn hảo. Tuy nhiên, vì những idiosyncrasies không xuất hiện trong dữ liệu trong tương lai bạn thấy, mô hình của bạn dự đoán kém.
Để giải quyết điều này, cũng như giảm thiểu lỗi như đã thảo luận, bạn thêm vào những gì được thu nhỏ và cũng giảm thiểu một chức năng xử phạt các giá trị lớn của các tham số. Thông thường chức năng là λΣθ j , đó là một số lần λ liên tục tổng các giá trị tham số bình phương q j . Các larger lớn hơn là ít có khả năng là các thông số sẽ được tăng cường độ đơn giản để điều chỉnh cho các nhiễu loạn nhỏ trong dữ liệu. Tuy nhiên, trong trường hợp của bạn, thay vì chỉ định λ, bạn chỉ định C = 1/λ.
Bạn đã hỏi Google chưa? Tôi đã làm. [Liên kết này] (http://compbio.soe.ucsc.edu/html_format_papers/hughkrogh96/node6.html) là người đầu tiên –
@RichardScriven Tôi đã làm, và thấy nó rất phức tạp và hy vọng một người nào đó sẽ tử tế, đủ để phá vỡ nó xuống tiếng Anh đơn giản cho tôi! Cảm ơn bạn đã liên kết :) – user3427495
Không sao. Mặc dù nó trông giống như toán học khó hơn tiếng anh đơn giản. :) –