Tôi cảm thấy giống như việc mô tả Pandas là "cải thiện" Numpy/SciPy nhớ nhiều điểm. Numpy/Scipy khá tập trung vào tính toán số hiệu quả và giải quyết các vấn đề số của loại mà các nhà khoa học và kỹ sư thường giải quyết. Nếu vấn đề của bạn bắt đầu với công thức và liên quan đến giải pháp số từ đó, bạn có thể tốt với hai người đó.
Pandas phù hợp hơn nhiều với các sự cố bắt đầu với dữ liệu được lưu trữ trong tệp hoặc cơ sở dữ liệu và chứa chuỗi cũng như số. Xem xét vấn đề đọc dữ liệu từ truy vấn cơ sở dữ liệu.Ở Pandas, bạn có thể trực tiếp read_sql_query
và có phiên bản có thể sử dụng của dữ liệu trong một dòng. Không có chức năng tương đương trong Numpy/SciPy.
Đối với dữ liệu có chuỗi hoặc dữ liệu rời rạc thay vì liên tục, không có khả năng tương đương với khả năng groupby
hoặc tham gia giống như cơ sở dữ liệu của bảng trên giá trị khớp.
Đối với chuỗi thời gian, có lợi ích lớn là handling time series data sử dụng chỉ mục ngày giờ, cho phép bạn định lại mẫu trơn tru theo các khoảng thời gian khác nhau, điền vào các giá trị và vẽ chuỗi của bạn vô cùng dễ dàng.
Vì nhiều sự cố của tôi bắt đầu cuộc sống của họ trong bảng tính, tôi cũng rất biết ơn việc xử lý tệp Excel tương đối minh bạch ở cả hai định dạng .xls
và .xlsx
với uniform interface.
Ngoài ra còn có một hệ sinh thái lớn hơn, với các gói như seaborn cho phép phân tích thống kê trôi chảy hơn và mô hình phù hợp hơn là có thể với các công cụ numpy/scipy cơ bản.