Tôi có khoảng 350 tệp văn bản (và mỗi tệp là khoảng 75MB). Tôi đang cố gắng kết hợp tất cả các tệp và xóa các mục trùng lặp. Các tập tin có định dạng sau:kết hợp nhiều tệp văn bản và xóa các bản sao
ip1,dns1
ip2,dns2
...
Tôi đã viết một kịch bản nhỏ để làm điều này
#!/bin/bash
for file in data/*
do
cat "$file" >> dnsFull
done
sort dnsFull > dnsSorted
uniq dnsSorted dnsOut
rm dnsFull dnsSorted
tôi đang làm chế biến này thường xuyên và đã tự hỏi nếu có bất cứ điều gì tôi có thể làm để cải thiện việc xử lý lần sau khi tôi chạy nó. Tôi mở cho bất kỳ ngôn ngữ lập trình và đề xuất nào. Cảm ơn!
bạn cũng có thể cung cấp sắp xếp -ma thử -> nó sẽ sắp xếp các tệp riêng lẻ và hợp nhất chúng cho phù hợp do đó nên tiết kiệm khá nhiều thời gian .... tùy chọn -m là espl có sẵn cho kịch bản như thế này ... tức là sắp xếp -m file * | uniq -u – nsd