Vì vậy, tôi có trang này:Làm thế nào tôi có thể kiểm tra một chuỗi unicode Python để thấy rằng nó * thực sự * là Unicode đúng?
http://hub.iis.sinica.edu.tw/cytoHubba/
Rõ ràng đó là tất cả các loại điều sai lầm, vì nó được giải mã đúng nhưng khi tôi cố gắng để lưu nó trong postgres tôi nhận được:
DatabaseError: invalid byte sequence for encoding "UTF8": 0xedbdbf
Các cơ sở dữ liệu clams lên sau đó và từ chối làm bất cứ điều gì mà không có một rollback, mà sẽ là một chút khó khăn để phát hành (câu chuyện dài). Có cách nào để tôi kiểm tra xem điều này có xảy ra trước khi nó truy cập cơ sở dữ liệu không? source.encode ("utf-8") hoạt động mà không có sự cố, vì vậy tôi không chắc chắn những gì đang xảy ra ...
Bạn có chắc chắn rằng kết nối của bạn được đặt để sử dụng UTF-8 không? – Wolph
Đúng, 300.000 trang web khác đã được thêm vào chỉ là tốt, nó chỉ là một trong những thất bại ... –