Tôi sử dụng R để phân tích dữ liệu và tôi rất hài lòng với nó. Tuy nhiên, việc làm sạch dữ liệu có thể dễ dàng hơn một chút. Tôi đang nghĩ về việc học một ngôn ngữ khác phù hợp với nhiệm vụ này. Cụ thể, tôi đang tìm một công cụ để lấy dữ liệu thô, xóa các biến hoặc quan sát không cần thiết và định dạng nó để dễ tải trong R. Nội dung sẽ chủ yếu là dữ liệu số và chuỗi, trái với văn bản nhiều dòng.Python hoặc awk/sed để làm sạch dữ liệu
Tôi đang xem xét kết hợp awk/sed so với Python. (Tôi nhận ra rằng Perl sẽ là một lựa chọn khác, nhưng, nếu tôi sẽ học một ngôn ngữ đầy đủ khác, Python có vẻ là một lựa chọn tốt hơn, có thể mở rộng hơn.)
Lợi thế của sed/awk là nó sẽ nhanh hơn học. Điểm bất lợi là sự kết hợp này không thể mở rộng được như Python. Thật vậy, tôi có thể tưởng tượng một số "nhiệm vụ leo" nếu tôi học Python, điều đó sẽ ổn, nhưng không phải mục tiêu của tôi.
Sự cân nhắc khác mà tôi có là các ứng dụng cho các tập dữ liệu lớn. Theo tôi hiểu nó, awk/sed hoạt động theo từng dòng, trong khi Python thường sẽ kéo tất cả dữ liệu vào bộ nhớ. Đây có thể là một lợi thế khác cho sed/awk.
Có vấn đề nào khác mà tôi đang thiếu không? Bất kỳ lời khuyên nào mà bạn có thể cung cấp sẽ được đánh giá cao. (I bao gồm thẻ R cho người sử dụng R để đưa ra các khuyến nghị làm sạch của họ.)
bằng cách "dọn dẹp", nghĩa là cắt bớt các ngoại lệ hoặc khôi phục tính nhất quán hoặc bất kỳ điều gì khác? bởi "dữ liệu", bạn có nghĩa là số lượng lớn hoặc chuỗi, hoặc chỉ đơn giản là văn bản? với tôi mục tiêu của câu hỏi hiện tại là quá chung chung. – nye17
@ nye17, xin lỗi vì sự mơ hồ. Tôi đã thêm chi tiết hơn một chút. – Charlie
Tôi sử dụng chủ yếu python cho bản thân mình, nhưng nếu nó là thao tác thuần túy của tập dữ liệu dựa trên văn bản, phục vụ như một giao diện dữ liệu cho R, tôi sẽ đề nghị perl, biểu hiện thường xuyên mạnh mẽ và linh hoạt trong giao dịch với văn bản. – nye17