Trả lời

9

Bạn có thể thay đổi iter_size trong thông số bộ giải. Cồn tích lũy gradient trên iter_size x batch_size trường hợp trong mỗi bước gốc dốc ngẫu nhiên. Vì vậy, tăng iter_size cũng có thể nhận được độ dốc ổn định hơn khi bạn không thể sử dụng batch_size lớn do bộ nhớ hạn chế.

4

Như đã nêu trong this post, kích thước lô không phải là một vấn đề về mặt lý thuyết (hiệu quả của độ dốc gốc ngẫu nhiên đã được chứng minh với một mẻ có kích thước 1). Đảm bảo bạn triển khai chính xác hàng loạt của mình (các mẫu sẽ được chọn ngẫu nhiên trên dữ liệu của bạn).

+2

thực sự đó là một kết quả lý thuyết tốt đẹp, nhưng trong thực tế, đặc biệt là khi mạng lớn và liên quan đến nhiều tham số, người ta vẫn có thể thích sử dụng hàng loạt lớn hơn kích thước. – Shai

+0

Bạn có thể cung cấp thêm một chút chi tiết về việc triển khai của mình không? Số tham số? Kích thước lô tối đa bạn có thể sử dụng? –

+0

Tôi đang cố gắng tìm hiểu mô hình tái phát: do đó, kích thước lô là một giao dịch giữa số bước thời gian tôi có thể hủy và số chuỗi độc lập tôi có thể xử lý. Càng có nhiều bước tôi đưa vào, các trình tự ít hơn tôi có thể xử lý và do đó, nhiễu trong ước tính độ dốc tăng lên. – Shai

Các vấn đề liên quan