Tôi có tệp văn bản lớn chứa một vài ký tự unicode khiến LaTeX gặp sự cố. Làm cách nào để tìm các ký tự không phải ASCII trong một tệp có chứa sed và các ký tự tương tự trong một bash Linux?Cách tìm kiếm các ký tự không phải ASCII bằng các công cụ bash?
Trả lời
Hãy thử:
nonascii() { LANG=C grep --color=always '[^ -~]\+'; }
Mà có thể được sử dụng như:
printf 'ŨTF8\n' | nonascii
Trong []
^
có nghĩa là "không". Vì vậy, [^ -~]
nghĩa là các ký tự không nằm giữa khoảng trắng và ~. Vì vậy, không bao gồm các ký tự điều khiển, điều này khớp với các ký tự không phải ASCII và là một phiên bản di động hơn mặc dù phiên bản chính xác kém hơn [^\x00-\x7f]
bên dưới. \+
có nghĩa là 1 or more
và sẽ nhận các ký tự nhiều byte để có màu được hiển thị xung quanh (các) ký tự hoàn chỉnh, thay vì xen kẽ trong mỗi byte, do đó làm hỏng chuỗi nhiều byte
wow nó hoạt động ngay cả trong màu đỏ đẹp. –
bạn có thể giải thích cho tôi '[^ - ~] \ +' có nghĩa là gì không?^là bắt đầu của dòng afaik. –
Rất đẹp. Nhưng các ký tự điều khiển (ngoại trừ dòng mới) được tìm thấy, mặc dù chúng thực sự là ASCII. Vì vậy, khi có tab, vận chuyển-trả về (dos tập tin), những người được tìm thấy. Bạn có thể cung cấp giải pháp thay thế chỉ in các ký tự không phải ASCII không? Cách tiếp cận '[^ \ x00- \ x7f]' trong câu trả lời khác cũng không phù hợp với tôi. – nealmcb
- 1. Bash: Chuyển đổi các ký tự không phải ASCII thành ASCII
- 2. chr cho các ký tự không phải ASCII trong Python
- 3. Các ký tự không phải ASCII trong Matplotlib
- 4. Các ký tự không phải ascii trong URL
- 5. Nhập các ký tự không phải ASCII vào scanf ("% s")
- 6. Làm cách nào để viết các ký tự không phải ASCII bằng cách sử dụng echo?
- 7. Cố gắng xóa các ký tự không phải ASCII chỉ
- 8. Các ký tự không phải ASCII trong C
- 9. Tìm ký tự không phải ASCII trong cột VARCHAR bằng cách sử dụng SQL Server
- 10. Làm cách nào để xử lý các ký tự Unicode (không phải ASCII) bằng Python?
- 11. Giao diện Python với PayPal - urllib.urlencode các ký tự không phải ASCII không thành công
- 12. Chuyển đổi các ký tự không phải ASCII từ ASCII-8BIT sang UTF-8
- 13. Tìm kiếm các Tweet bằng Ký tự Unicode/Apple Emoji?
- 14. Xóa các ký tự không phải ASCII khỏi các tệp dữ liệu
- 15. cách sử dụng các công cụ tìm kiếm của rùa?
- 16. Công cụ tìm kiếm bằng Java?
- 17. Làm cách nào để tìm các ký tự ASCII mở rộng trong một tệp bằng Perl?
- 18. Tìm kiếm các ký tự đặc biệt trong Google
- 19. Xóa mẫu ở cuối chuỗi bằng cách sử dụng các công cụ bash hoặc các công cụ bash khác
- 20. Tìm ký tự ASCII tương tự trong Unicode
- 21. hạ cấp các ký tự không phải ascii thành tương đương ASCII 7 bit gần nhất (tốt nhất là Java)
- 22. Python regex để chuyển đổi các ký tự không phải ascii thành chuỗi gần nhất ascii tương đương
- 23. Bình thường hóa các ký tự ASCII
- 24. Làm cách nào để phát hiện các ký tự không phải ASCII trong chuỗi?
- 25. Cách tốt hơn để xóa các ký tự không phải là ASCII 32 đến 175 C#
- 26. (grep) Regex có khớp với các ký tự không phải ASCII không?
- 27. Làm cách nào để tìm các ký tự Unicode/không phải ASCII trong trường NTEXT trong bảng SQL Server 2005?
- 28. Văn bản tìm kiếm của Oracle với các ký tự không phải tiếng Anh
- 29. Các trang web AJAX có thể thu thập thông tin bằng công cụ tìm kiếm không?
- 30. Ký tự JavaMail và không phải ASCII trong tên tệp
Đây có phải là tệp trong UTF-8 hay không ký tự là ASCII, nhưng một số là UTF-8 nhiều byte được định dạng tốt và một số bị hỏng (multi-byte) UTF-8? Có nhiều ký tự UTF-8 (đa byte) được hình thành tốt không? Hoặc là một số mã hóa khác hoàn toàn? –