Tôi có ứng dụng web được viết bằng Flask. Theo đề nghị của tất cả mọi người, tôi không thể sử dụng Flask trong sản xuất. Vì vậy, tôi nghĩ về Gunicorn với Flask.Làm thế nào để chạy Flask với Gunicorn ở chế độ đa luồng
Trong ứng dụng Flask, tôi đang tải một số mẫu Máy học. Đây là những kích thước 8GB chung. Đồng thời ứng dụng web của tôi có thể tối đa 1000 yêu cầu. Và RAM của máy là 15GB.
Vậy cách tốt nhất để chạy ứng dụng này là gì?
Với nhiều người lao động, việc loại bỏ bộ nhớ ngoại lệ là kích thước của các mô hình lớn. Tôi nghĩ rằng với mỗi công nhân, nó sẽ tải tất cả các mô hình trong không gian bộ nhớ khác nhau – neel
Bạn cần sử dụng công nhân không đồng bộ như gevent để cho phép đồng thời với một nhân viên: 'gunicorn -k gevent --worker-connections 1000'. – molivier
Bạn cũng có thể thêm '--threads' để chạy mỗi công nhân với số lượng chủ đề đã chỉ định. Xem Chỉnh sửa. – molivier