Tôi có một file UTF-8 với dữ liệu twitter và tôi đang cố gắng để đọc nó vào một khung dữ liệu Python nhưng tôi chỉ có thể nhận được một 'đối tượng' loại thay vì chuỗi unicode:Cách đọc tệp UTF-8 bằng Pandas?
# file 1459966468_324.csv
#1459966468_324.csv: UTF-8 Unicode English text
df = pd.read_csv('1459966468_324.csv', dtype={'text': unicode})
df.dtypes
text object
Airline object
name object
retweet_count float64
sentiment object
tweet_location object
dtype: object
bên phải là gì cách đọc và ép dữ liệu UTF-8 vào unicode với Pandas?
này không giải quyết vấn đề:
df = pd.read_csv('1459966468_324.csv', encoding = 'utf8')
df.apply(lambda x: pd.lib.infer_dtype(x.values))
bản tập tin là ở đây: https://raw.githubusercontent.com/l1x/nlp/master/1459966468_324.csv
http://stackoverflow.com/a/20670901/2141635 –
Sử dụng 'df.apply (lambda x: pd.lib.infer_dtype (x. giá trị)) 'không hiển thị các loại như unicode và hỗn hợp, nếu bạn nhìn vào liên kết ở trên, bạn sẽ thấy những gì đang xảy ra –