Tôi có một văn bản chứa các ký tự như "\ xaf", "\ xbe", như tôi hiểu từ this question, là các ký tự được mã hóa ASCII.Làm cách nào để chuyển đổi các ký tự được mã hóa xXY sang UTF-8 bằng Python?
Tôi muốn chuyển đổi chúng bằng Python sang các tương đương UTF-8 của chúng. Thông thường string.encode("utf-8")
ném UnicodeDecodeError
. Có cách nào tốt hơn không, ví dụ: với thư viện chuẩn codecs
?
Mẫu 200 characters here.
mẫu của bạn không bao gồm bất kỳ '\ xaf' hoặc như thế. Bạn có mẫu nào với các ký tự như vậy không? – dkarp
Dữ liệu mẫu của bạn * là * hợp lệ UTF-8. Với ký tự điều khiển "dấu phân tách bản ghi" và "dấu phân tách đơn vị". – dan04
Theo 'enca' (http://linux.die.net/man/1/enca) nó là UTF-8" được bao quanh bởi/trộn lẫn với dữ liệu không phải văn bản ". –