Phục vụ phân luồng: Sử dụng một phần bộ nhớ GPU cho mỗi mô hình

Tôi có một GPU tùy ý sử dụng để triển khai nhưng nhiều mô hình cần được triển khai. Tôi không muốn phân bổ bộ nhớ GPU đầy đủ cho mô hình được triển khai đầu tiên bởi vì sau đó tôi không thể triển khai các mô hình tiếp theo của mình. Trong khi đào tạo, điều này có thể được kiểm soát bằng cách sử dụng tham số gpu_memory_fraction. Tôi đang sử dụng lệnh sau để triển khai mô hình của tôi -Phục vụ phân luồng: Sử dụng một phần bộ nhớ GPU cho mỗi mô hình

tensorflow_model_server --port=9000 --model_name=<name of model> --model_base_path=<path where exported models are stored &> <log file path>

Có một lá cờ mà tôi có thể thiết lập để kiểm soát việc phân bổ bộ nhớ gpu?

Cảm ơn

Nguồn

2017-12-01 dragster

Liệu [này] (https://stackoverflow.com/questions/34199233/how-to-prevent-tensorflow-from-allocating- bộ nhớ toàn bộ-của-một-gpu-bộ nhớ? rq = 1) giúp đỡ? – Imran

@Imran Không, truy vấn của tôi liên quan đến việc cấp phát bộ nhớ trong quá trình phân phối lưu lượng. – dragster

Bạn có thể tìm thấy một lỗi mở tại đây https://github.com/tensorflow/serving/issues/249. Tldr; không có vẻ là một lựa chọn và apparantly bạn sẽ phải thay đổi tùy chọn bằng tay và biên dịch lại các nhị phân như được giải thích trong bài tôi liên kết. – rajat

Tôi vừa thêm một cờ để định cấu hình bộ nhớ gpu. https://github.com/zhouyoulie/serving

Nguồn

2017-12-14 11:05:36

Các TF mới phục vụ được phép thiết lập cờ per_process_gpu_memory_fraction trong này pull request

Nguồn

2018-02-11 23:56:35

Phục vụ phân luồng: Sử dụng một phần bộ nhớ GPU cho mỗi mô hình

Trả lời

Các vấn đề liên quan