Tôi không chắc chắn làm thế nào để đặt câu hỏi này thực sự, và tôi không có nơi gần tìm câu trả lời, vì vậy tôi hy vọng ai đó có thể giúp tôi.Xử lý chuỗi có chứa nhiều mã hóa ký tự
Tôi đang viết một ứng dụng Python kết nối với máy chủ từ xa và nhận lại dữ liệu byte, mà tôi giải nén bằng cách sử dụng mô-đun cấu trúc dựng sẵn của Python. Vấn đề của tôi là với các chuỗi, vì chúng bao gồm nhiều mã hóa ký tự. Dưới đây là một ví dụ về một chuỗi ví dụ:
"^ LThis là một ví dụ^G-string với nhiều^mã hóa Jcharacter"
Trường hợp bắt đầu mã hóa khác nhau và kết thúc được đánh dấu bằng ký tự thoát đặc biệt:
- ^L - latin1
- ^E - Trung Âu
- ^T - Thổ Nhĩ Kỳ
- ^B - Baltic
- ^J - Nhật
- ^C - Cyrillic
- ^G - Hy Lạp
Và vân vân ... Tôi cần một cách để chuyển đổi loại này của chuỗi thành Unicode, nhưng tôi thực sự không chắc chắn làm thế nào để làm điều đó. Tôi đã đọc trên các codec của Python và string.encode/decode, nhưng tôi không thực sự là người khôn ngoan. Tôi nên đề cập đến là tốt, rằng tôi không có quyền kiểm soát cách dây được xuất bởi máy chủ.
Tôi hy vọng ai đó có thể giúp tôi với cách bắt đầu.
Trình phân tích cú pháp của bạn có bất kỳ lỗi nào hoặc bạn còn lại bằng chuỗi Python hợp lệ, nhưng với mã hóa không sử dụng được không? Nếu vậy, mọi thứ có thể được sửa. Vui lòng cung cấp một chuỗi ví dụ. – DzinX
Tôi có nghĩa là ví dụ khác so với ở trên, như ví dụ trên chỉ có các ký tự ASCII. – DzinX