Tôi cần đào tạo một mô hình hồi quy trên một tập hợp lớn các ví dụ đào tạo , với khả năng kết hợp các tính năng tùy ý. Tôi cần xem xét và giải thích lý do gì về các thuật toán học tập ?Tôi nên xem xét thuật toán học nào để huấn luyện mô hình hồi quy tuyến tính?
Một bản tóm tắt nhanh chóng của các vấn đề:
- Khoảng 5 triệu ví dụ huấn luyện
- Thêm ví dụ huấn luyện với tốc độ 2-4 triệu mỗi năm
- ví dụ đào tạo hiện có 10 đặc điểm của từng
- Tính năng dân số 400.000 A (trong tổng số không gian có tổng diện tích lớn hơn nhiều)
- Các tính năng bổ sung được thêm theo thời gian
- Đào tạo hoặc thích nghi với mô hình (ít nhất) hàng ngày để kết hợp ví dụ mới
- tiêu chí tối ưu hóa: tối thiểu bình phương lỗi tỷ lệ
- Output: a đơn giá trị thực số
Tôi có một số kinh nghiệm đào tạo log- mô hình tuyến tính về các vấn đề phân loại có kích thước tương tự (sử dụng SVM, Perverrons trung bình và bình chọn, vv) Khả năng thêm các tính năng tùy ý là quan trọng, nhưng trong trường hợp này, thời gian đào tạo cũng có giá trị.
Ví dụ: một thử nghiệm của tôi cho đến nay với SVMLight mất vài tuần để hội tụ trên một tập con của dữ liệu này. Chúng ta có thể song song trên một máy đa lõi hoặc (có thể) một cụm, nhưng chúng ta cần đào tạo các mô hình trong vài phút. Đào tạo trực tuyến sẽ còn tốt hơn nữa.
Tôi đã đào tạo thành công mô hình Perceptron trung bình thành công (và nhanh chóng). Tuy nhiên, với kiến thức của tôi, AP thường không được áp dụng cho hồi quy. AP có cung cấp bất kỳ sự đảm bảo hội tụ nào cho mô hình hồi quy không? Có lý do chính thức nào khác không nên áp dụng không? Hay đó là một sự phù hợp hợp lý cho các yêu cầu của tôi?
Tôi nên nghiên cứu các tùy chọn nào khác? SVM có thể cung cấp độ chính xác cao, nhưng thời gian đào tạo bậc hai không được chấp nhận. Nếu các thuật toán SVM tuyến tính có thể truy cập được, điều đó có thể hoạt động tốt.
ưu điểm tiềm năng:
- trực tuyến đào tạo
- thực hiện Mã nguồn mở có sẵn (lý tưởng trong Java). Chúng tôi có thể triển khai thực hiện của riêng mình nếu cần, nhưng tôi sẽ tránh điều đó nếu có thể.
Cảm ơn bạn đã nhập.
Để phân loại, tôi đã có nhiều thành công với SVMs stochastic gốc dốc (http://leon.bottou.org/projects/sgd#) - bạn có thể muốn xem xét điều chỉnh nó để hồi quy. – etarion