Tôi thực sự xin lỗi vì câu hỏi noob này, nhưng tôi không thể thực sự tìm ra những gì đang xảy ra ở đây. Tôi muốn tính toán tần số của các từ từ một tập tin, trong đó các từ là một dòng. Các tập tin thực sự lớn, vì vậy đây có thể là vấn đề (nó đếm 300k dòng trong ví dụ này)Tại sao uniq không hoạt động trên tệp lớn này? bash
tôi làm lệnh này:
cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt
và vấn đề là nó mang lại cho tôi một lỗi nhỏ: nó coi tôi là những từ giống nhau. Ví dụ các mục đầu tiên là:
306 continua
278 apertura
211 eventi
189 murah
182 giochi
167 giochi
với GIOCHI lặp lại hai lần như bạn có thể nhìn thấy
ở dưới cùng của file nó trở nên tồi tệ hơn và có vẻ như thế này:
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 winchester
1 wind
1 wind
cho tất cả các từ
Tôi thực sự xin lỗi một lần nữa vì câu hỏi ngu ngốc, nhưng tôi rất tiếc với chương trình trình bao. Tôi đang làm gì sai?
thanks a lot
sử dụng vô dụng của mèo. – scai