2011-11-08 40 views
13

Tôi có một tệp nhị phân. Tệp này chứa chuỗi UTF-8. Hơn nữa, nó được đảm bảo rằng chuỗi này chỉ là một từ duy nhất. Trong python, làm thế nào tôi có thể nhận được số lượng chữ cái trong chuỗi này?python có kích thước chuỗi unicode

Hãy nói rằng, tôi mở tập tin này và đọc byte:

bytes = open("1.dat", "rb").read() 

gì tiếp theo có tôi phải làm gì để tìm ra chiều dài (chữ in hoa, không bytes) của UTF-8 chuỗi?

+0

Mức độ liên quan của "nó được đảm bảo rằng chuỗi này chỉ là một từ duy nhất"? –

+2

Không mở tệp ở chế độ nhị phân. Mở nó bằng 'codecs.open' và cho nó một đối số mã hóa. Đã giải quyết được sự cố. – tchrist

Trả lời

28
unicode_string = bytes.decode("utf-8") 
print len(unicode_string) 
+2

Trong Python 3, bạn có thể đặt 'bytes = len (mở ('1.dat', encoding = 'utf-8'). Read())' – Cito

Các vấn đề liên quan