Sử dụng Python 2.5, tôi có một số văn bản trong lưu trữ trong một đối tượng unicode:Làm cách nào để đảo ngược phân tách Unicode bằng Python?
Dinis e Isabel, uma difı'cil relac¸a~o vợ chồng e polı'tica
này xuất hiện là decomposed Unicode. Có một cách chung chung bằng Python để đảo ngược quá trình phân hủy, vì vậy tôi kết thúc với:
Dinis e Isabel, uma difícil relação vợ chồng e política
Có, điều này hoạt động - giả sử tôi thực sự có unicode bị phân hủy. Thật không may có vẻ như tôi thực sự có (ví dụ) \ u00B8 (cedilla) thay vì \ u0327 (kết hợp cedilla) trong văn bản của tôi. Có vẻ như tôi sẽ cần phải lập bản đồ các ký tự này cho kết hợp tương đương của chúng hoặc chỉ xóa chúng hoàn toàn. Cảm ơn. – msanders