Đặt cược tốt nhất của tôi để tính toán sản phẩm chấm của vectơ x với số lượng lớn vectơ y_i, trong đó x và y_i có chiều dài 10k hoặc hơn.Sản phẩm chấm - SSE2 và BLAS
- Đổ y vào ma trận và sử dụng tối ưu hóa
s/dgemv
thường lệ? - Hoặc có thể thử tay mã hóa giải pháp SSE2 (Tôi không có SSE3, theo cpuinfo).
Tôi chỉ đang tìm hướng dẫn chung tại đây, vì vậy mọi đề xuất sẽ hữu ích.
Và có, tôi cần hiệu suất. Cảm ơn mọi ánh sáng.
nào biên dịch bạn đang sử dụng? –