Một trong những điều tôi giải quyết nhiều nhất trong việc làm sạch dữ liệu là thiếu giá trị. R giao dịch với giếng này bằng cách sử dụng nhãn "NA" thiếu nhãn dữ liệu. Trong python, nó xuất hiện rằng tôi sẽ phải đối phó với các mảng mặt nạ mà dường như là một nỗi đau lớn để thiết lập và dường như không được tài liệu tốt. Bất kỳ gợi ý nào về việc làm cho quy trình này dễ dàng hơn trong Python? Điều này đang trở thành một đối tác phá vỡ trong việc chuyển sang Python để phân tích dữ liệu. Cảm ơnLàm thế nào để bạn xử lý dữ liệu bị thiếu bằng cách sử dụng numpy/scipy?
Cập nhật Rõ ràng là tôi đã xem xét các phương pháp trong mô-đun numpy.ma. Dường như ít nhất các hàm phân tích cơ bản có sẵn cho các mảng được che dấu, và các ví dụ được cung cấp đã giúp tôi hiểu cách tạo các mảng mặt nạ (nhờ các tác giả). Tôi muốn xem liệu một số phương pháp thống kê mới hơn trong Python (được phát triển trong GSoC năm nay) có kết hợp khía cạnh này hay không, và ít nhất là phân tích trường hợp hoàn chỉnh.
Tại sao không sử dụng numpy.NaN để xác định dữ liệu bị mất? – Paul