Làm thế nào để chuyển đổi chuỗi thoát unicode thành các ký tự unicode trong một chuỗi python

Khi tôi cố gắng lấy nội dung của thẻ bằng cách sử dụng "unicode (head.contents [3])" tôi nhận được kết quả tương tự như sau: "Christensen Sk \ xf6ld ". Tôi muốn chuỗi thoát được trả về dạng chuỗi. Làm thế nào để làm điều đó trong python?Làm thế nào để chuyển đổi chuỗi thoát unicode thành các ký tự unicode trong một chuỗi python

Nguồn

2009-06-13 Vicky

Giả sử Python thấy tên dưới dạng một chuỗi bình thường, trước tiên bạn sẽ cần phải giải mã nó để unicode:

>>> name 
'Christensen Sk\xf6ld' 
>>> unicode(name, 'latin-1') 
u'Christensen Sk\xf6ld'

Một cách khác để đạt được điều này:

>>> name.decode('latin-1') 
u'Christensen Sk\xf6ld'

Lưu ý "u" ở phía trước của chuỗi, báo hiệu nó là không mã hóa. Nếu bạn in chữ này, chữ cái có dấu được hiển thị chính xác:

>>> print name.decode('latin-1') 
Christensen Sköld

BTW: khi cần thiết, bạn có thể sử dụng phương pháp de "mã hóa" để biến mã unicode thành ví dụ: một chuỗi UTF-8:

>>> name.decode('latin-1').encode('utf-8') 
'Christensen Sk\xc3\xb6ld'

Nguồn

2009-06-14 06:46:22

cảm ơn rất nhiều anh chàng. Vì vậy, nếu tôi cần nó để lưu nó vào một cơ sở dữ liệu tôi có thể giải mã nó và lưu vào cơ sở dữ liệu, phải không? – Vicky

KHÔNG, đọc lại ví dụ của Mark. Sau khi giải mã dữ liệu từ bất kỳ thứ gì (latin1, cp1252, vv) thành unicode, bạn cần mã hóa chuỗi unicode với mã hóa (1) cơ sở dữ liệu hỗ trợ và (2) bảo toàn tất cả các ký tự unicode ... thường là UTF-8 . –

Tôi nghi ngờ rằng nó hoạt động chính xác. Theo mặc định, Python hiển thị các chuỗi trong mã hóa ASCII, vì không phải tất cả các thiết bị đầu cuối đều hỗ trợ unicode. Nếu bạn thực sự in chuỗi, mặc dù, nó sẽ làm việc. Xem ví dụ sau:

>>> u'\xcfa' 
u'\xcfa' 
>>> print u'\xcfa' 
Ïa

Nguồn

2009-06-13 07:02:20

Nếu vấn đề là với thiết bị đầu cuối, nó sẽ được hiển thị đúng nếu tôi lưu nó vào cơ sở dữ liệu (MySQL) ?? – Vicky

Có, nó sẽ, nhưng bạn phải chăm sóc mã hóa tập hợp ký tự/bộ ký tự DB của bạn. – securecurve

Cho một chuỗi byte với Unicode thoát b"\N{SNOWMAN}", b"\N{SNOWMAN}".decode('unicode-escape) sẽ tạo ra các chuỗi Unicode dự kiến u'\u2603'.

Nguồn

2012-08-23 00:36:28 joeforker

Làm thế nào để chuyển đổi chuỗi thoát unicode thành các ký tự unicode trong một chuỗi python

Trả lời

Các vấn đề liên quan