Tôi đang cố gắng đọc tệp được nén (.gz) trong python và đang gặp một số sự cố.Đọc các ký tự utf-8 từ tệp gzip trong python
Tôi đã sử dụng mô-đun gzip để đọc nhưng tệp được mã hóa dưới dạng tệp văn bản utf-8 để cuối cùng nó đọc một ký tự không hợp lệ và bị treo.
Có ai biết cách đọc tệp gzip được mã hóa dưới dạng tệp utf-8 không? Tôi biết rằng có một mô-đun codec có thể giúp nhưng tôi không thể hiểu cách sử dụng nó.
Cảm ơn!
import string
import gzip
import codecs
f = gzip.open('file.gz','r')
engines = {}
line = f.readline()
while line:
parsed = string.split(line, u'\u0001')
#do some things...
line = f.readline()
for en in engines:
print(en)
Bạn có thể đăng mã bạn có cho đến nay không? –
Bạn có thể chuyển đổi tệp utf-8 thành ascii sau đó cố gắng giải nén tệp đó không? hmm .... – whatsisname