Tôi đang chơi với trình phân loại hồi quy logistic một lần so với sử dụng Scikit-Learn (sklearn). Tôi có một tập dữ liệu lớn quá chậm để chạy tất cả cùng một lúc; Tôi cũng muốn nghiên cứu đường cong học tập như tiền thu được.Gốc liên tục theo từng bước với scikit (sklearn)
Tôi muốn sử dụng hàng loạt gradient gốc để đào tạo phân loại của tôi theo lô, ví dụ, 500 mẫu. Có cách nào để sử dụng sklearn để làm điều này không, hay tôi nên bỏ qua sklearn và "cuộn của riêng tôi"?
Đây là những gì tôi có cho đến nay:
from sklearn.linear_model import LogisticRegression
from sklearn.multiclass import OneVsRestClassifier
# xs are subsets of my training data, ys are ground truth for same; I have more
# data available for further training and cross-validation:
xs.shape, ys.shape
# => ((500, 784), (500))
lr = OneVsRestClassifier(LogisticRegression())
lr.fit(xs, ys)
lr.predict(xs[0,:])
# => [ 1.]
ys[0]
# => 1.0
Tức là nó xác định chính xác một mẫu đào tạo (có, tôi nhận ra sẽ tốt hơn nếu đánh giá nó với dữ liệu mới - đây chỉ là một thử nghiệm khói nhanh).
R.e. hàng loạt gradient gốc: Tôi đã không nhận được như xa như tạo đường cong học tập, nhưng có thể chỉ đơn giản là chạy fit
nhiều lần trên các tập con tiếp theo của dữ liệu đào tạo? Hoặc là có một số chức năng khác để đào tạo theo lô? Tài liệu và Google khá im lặng về vấn đề này. Cảm ơn!
Đặt cược tốt nhất của bạn có thể xem xét mã nguồn của thư viện này. – Arcturus