Tôi có một ứng dụng giải quyết một hệ phương trình trong CUDA, tôi biết chắc chắn rằng mỗi luồng có thể tìm thấy tối đa 4 giải pháp, nhưng làm thế nào tôi có thể sao chép sau đó quay lại máy chủ?Cách thu thập dữ liệu hiệu quả từ các chủ đề trong CUDA?
Tôi đang chuyển một mảng lớn với đủ không gian cho tất cả các chuỗi lưu trữ 4 giải pháp (4 đôi cho mỗi giải pháp) và một giải pháp khác cho mỗi giải pháp, tuy nhiên đó là giải pháp ngây thơ và là nút cổ chai hiện tại của hạt nhân của tôi.
Tôi thực sự muốn tối ưu hóa điều này. Vấn đề chính là nối một số lượng các giải pháp cho mỗi luồng trong một mảng đơn lẻ.
Sẽ dễ dàng hơn nhiều nếu tôi biết thêm về chương trình của bạn. với kiến thức của tôi (Đã khoảng một năm kể từ khi tôi lộn xộn với cuda vì vậy tôi có thể sai), memcopies là cách duy nhất để lấy thông tin và chúng chậm. Và phiên bản của cuda trên thẻ gì? – 8bitwide
Tôi có sẵn CUDA 4.0 và 4.2. – RSFalcon7
Mã quá lớn để đặt ở đây. Tôi đồng ý rằng cudaMemCpy đó là cách duy nhất để có được kết quả, nhưng tôi có thể tránh sao chép rác. – RSFalcon7