Tôi có lệnh sau để thay thế các ký tự Unicode bằng các ký tự ASCII.Cách thay thế các ký tự Unicode bằng ASCII
sed -i 's/Ã/A/g'
Vấn đề là Ã
không được nhận dạng bởi lệnh sed trong môi trường Unix của tôi vì vậy tôi giả sử bạn thay thế bằng giá trị thập lục phân. Cú pháp sẽ trông như thế nào nếu tôi sử dụng C3
thay thế?
Tôi đang sử dụng lệnh này làm mẫu cho nhân vật khác tôi muốn thay thế với các không gian trống như:
sed -i 's/©// g'
ý bạn là như thế này? http://stackoverflow.com/questions/22450563/sed-matching-unicode-blocks-with – Leo
Thiết bị đầu cuối của bạn sử dụng bộ ký tự nào? Và văn bản đầu vào sử dụng mã hóa nào? Ã trong UTF-8 là 0xC3 0x83 và ký tự 0x83 là mã kiểm soát trong ISO 8859-1, do đó có thể là một vấn đề. Tôi cho rằng bạn không thể đặt 'LANG = en_US.UTF-8' trên hệ thống của bạn. – yellowantphil
"sed" sẽ thực hiện công việc. Xin vui lòng xem câu trả lời của tôi. – ajaaskel