Tôi đang cố gắng đào tạo một mô hình rất lớn. Vì vậy, tôi chỉ có thể phù hợp với kích thước lô rất nhỏ vào bộ nhớ GPU. Làm việc với các kích thước lô nhỏ dẫn đến rất noisy gradient estimations.
Tôi có thể làm gì để tránh sự cố này?Caffè: Tôi có thể làm gì nếu chỉ một lô nhỏ phù hợp với bộ nhớ?
Trả lời
Bạn có thể thay đổi iter_size
trong thông số bộ giải. Cồn tích lũy gradient trên iter_size
x batch_size
trường hợp trong mỗi bước gốc dốc ngẫu nhiên. Vì vậy, tăng iter_size
cũng có thể nhận được độ dốc ổn định hơn khi bạn không thể sử dụng batch_size lớn do bộ nhớ hạn chế.
Như đã nêu trong this post, kích thước lô không phải là một vấn đề về mặt lý thuyết (hiệu quả của độ dốc gốc ngẫu nhiên đã được chứng minh với một mẻ có kích thước 1). Đảm bảo bạn triển khai chính xác hàng loạt của mình (các mẫu sẽ được chọn ngẫu nhiên trên dữ liệu của bạn).
thực sự đó là một kết quả lý thuyết tốt đẹp, nhưng trong thực tế, đặc biệt là khi mạng lớn và liên quan đến nhiều tham số, người ta vẫn có thể thích sử dụng hàng loạt lớn hơn kích thước. – Shai
Bạn có thể cung cấp thêm một chút chi tiết về việc triển khai của mình không? Số tham số? Kích thước lô tối đa bạn có thể sử dụng? –
Tôi đang cố gắng tìm hiểu mô hình tái phát: do đó, kích thước lô là một giao dịch giữa số bước thời gian tôi có thể hủy và số chuỗi độc lập tôi có thể xử lý. Càng có nhiều bước tôi đưa vào, các trình tự ít hơn tôi có thể xử lý và do đó, nhiễu trong ước tính độ dốc tăng lên. – Shai
- 1. Regex chỉ phù hợp với một chuỗi rỗng là gì?
- 2. Bộ lọc iango phù hợp với toàn bộ từ chỉ
- 3. Có nghĩa là gì để phù hợp với "bộ làm việc" thành RAM cho MongoDB?
- 4. trả về bộ nhớ phù hợp với mới?
- 5. MapReduce có phù hợp với tôi không?
- 6. Chiều cao DIV có thể mở rộng để phù hợp với nội dung nội bộ - tôi đang làm gì sai?
- 7. Scrum có phù hợp với tổ chức nhỏ không?
- 8. Làm cách nào để tôi có thể thực hiện một hình vuông nhỏ nhất phù hợp với nhiều bộ dữ liệu nhanh?
- 9. Chúng tôi có thể có một máy tính chỉ với sổ đăng ký làm bộ nhớ không?
- 10. Hoàn toàn phù hợp với cốt truyện ggplot2 trong lô
- 11. Làm thế nào tôi có thể viết một regex phù hợp với không tham lam?
- 12. Loại bộ nhớ cache nào phù hợp để sử dụng trong dự án Umbraco và làm cách nào tôi có thể triển khai bộ nhớ cache thông minh?
- 13. Sở thú có phù hợp với bộ nhớ đệm đối tượng không?
- 14. WeasyPrint có thể phù hợp với khổ giấy Tự động
- 15. CMS nào phù hợp với tôi?
- 16. Nếu tôi cấp phát bộ nhớ trong một chuỗi trong C++, tôi có thể phân bổ bộ nhớ trong một số khác
- 17. Tôi có thể lấy một đối tượng python từ địa chỉ bộ nhớ của nó không?
- 18. Maven có phù hợp với một dự án Java nhỏ không?
- 19. Làm cách nào để tôi có thể phù hợp với RelativeLayout trên màn hình?
- 20. làm thế nào tôi có thể tự động phù hợp FullCalendar vào một không gian div được chỉ định
- 21. Tôi có thể giải phóng bộ nhớ cho SysAllocString không?
- 22. Caching trong C# có phải là cách tiếp cận phù hợp với tôi không?
- 23. Làm thế nào để kiểm tra nếu enum không phù hợp với một mô hình?
- 24. Cách đối sánh không có gì nếu tên tệp glob không có kết quả phù hợp
- 25. Làm thế nào tôi có thể đảm bảo một DIV trải dài để phù hợp với nội dung của nó?
- 26. Làm cách nào tôi có thể chỉ định kết hợp biểu thức chính quy của tôi với một biến?
- 27. Phù hợp với hậu duệ thứ bậc phù hợp với bộ chọn jQuery
- 28. tôi có thể in bộ nhớ với lệnh x gdb, nhưng nếu tôi sử dụng printf, lỗi segmentation
- 29. DCI là gì và nó có thể phù hợp với Rails như thế nào?
- 30. Scala có toán tử "kiểm tra nếu phù hợp" không?
liên quan: http://stats.stackexchange.com/q/201775/66467 – Shai