Giả sử tôi đang cố tổng hợp một biến (gọi nó là var_1
) trong một tập dữ liệu rất lớn (gần một terabyte). Tập dữ liệu vừa dài vừa rộng. Mã của tôi sẽ trông như thế này:Việc sử dụng tùy chọn KEEP trên bộ dữ liệu SAS có cải thiện hiệu năng đọc không?
PROC MEANS DATA=my_big_dataset SUM;
VAR var_1;
RUN;
Tôi có nhận được bất kỳ đạt được hiệu suất ở tất cả bằng công KEEP
tùy chọn trên bộ dữ liệu được đọc? Đó là:
PROC MEANS DATA=my_big_dataset (KEEP=var_1) SUM;
VAR var_1;
RUN;
Về mặt đĩa I/O, tôi tưởng tượng rằng mỗi bản ghi phải được đọc toàn bộ cho dù là gì. Nhưng có lẽ ít bộ nhớ cần phải được phân bổ để đọc các bản ghi. Mọi lời khuyên đều được đánh giá cao.
Đề xuất tốt - Tôi sẽ cố gắng thực hiện một số điểm chuẩn trong quá trình đọc nhiều lần tiếp theo từ tập hợp này. –