Cách chuyển đổi tệp văn bản thành chữ thường trong UNIX (nhưng bằng UTF-8)

Tôi cần phải chuyển đổi tất cả văn bản thành chữ thường, nhưng không sử dụng lệnh "tr" truyền thống vì nó không xử lý đúng ngôn ngữ UTF-8.Cách chuyển đổi tệp văn bản thành chữ thường trong UNIX (nhưng bằng UTF-8)

Có cách nào tốt đẹp để làm điều đó không? Tôi cần một số bộ lọc UNIX để tôi có thể xử lý này trong một đường ống.

Nguồn

2010-09-24 lzap

Gnu sed sẽ có thể xử lý unicode. Hãy thử

$ echo 'Some StrAngÉ LeTTeRs 123' | sed -e 's/./\L\0/g' 
some strangé letters 123

Nguồn

2010-09-24 08:38:03 aioobe

giải pháp của bạn không làm việc cho nhân vật Thổ Nhĩ Kỳ I. Nó phải được chuyển thành ı thay vì tôi https://en.wikipedia.org/wiki/Dotted_and_dotless_I – zwlayer

Nếu bạn có thể sử dụng Python sau đó mã như vậy có thể giúp bạn:

import sys 
import codecs 

utf8input = codecs.getreader("utf-8")(sys.stdin) 
utf8output = codecs.getwriter("utf-8")(sys.stdout) 

utf8output.write(utf8input.read().lower())

Trên máy tính Windows của tôi (xin lỗi :) Tôi có thể sử dụng nó như là bộ lọc:

cat big.txt | python tolowerutf8.py > lower.txt3

Nguồn

2010-09-24 08:42:01

Cảm ơn - cũng là một giải pháp tốt. – lzap

Điều đó chắc chắn có nhiều mã so với 'in lc'C'-lSD '. – tchrist

Cách chuyển đổi tệp văn bản thành chữ thường trong UNIX (nhưng bằng UTF-8)

Trả lời

Các vấn đề liên quan