2014-07-05 23 views
6

Tôi đang gặp sự cố khi sử dụng pandas để mở dữ liệu được phân cách bằng tab không có tiêu đề.đọc dữ liệu được phân tách bằng tab không có tiêu đề trong gấu trúc

dữ liệu thử nghiệm của tôi (thực sự chứa 200 dòng, trong đó tôi thấy người đầu tiên 10):

Tag19184 CTAAC hffef 1 a 36 - chr1 10006 0 36M 36 
Tag19184 CTAAC hffef 1 a 36 - chr1 10012 0 36M 36 
Tag19184 CTAAC hffef 1 a 36 - chr1 10018 0 36M 36 
Tag19184 CTAAC hffef 1 a 36 - chr1 10024 0 36M 36 
Tag19184 CTAAC hffef 1 a 36 - chr1 10030 0 36M 36 
Tag19184 CTAAC hffef 1 a 36 - chr1 10036 0 36M 36 
Tag19184 CTAAC hffef 1 a 36 - chr1 10042 0 36M 36 
Tag20198 CTAAC hffef 1 a 36 - chr1 10048 0 36M 36 
Tag20198 CTAAC hffef 1 a 36 - chr1 10054 0 36M 36 
Tag45093 CTAAC hffef 1 a 36 - chr1 10060 0 36M 36 

Mã của tôi:

import pandas as pd 
df = pd.read_csv('in_test.txt',sep='\t',header=None) 
print df 

Tuy nhiên, tôi nhận được đầu ra sau, mà tôi không nghĩ rằng tôi có thể sử dụng để xử lý dữ liệu hơn nữa (?):

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 200 entries, 0 to 199 
Data columns: 
X.1  200 non-null values 
X.2  200 non-null values 
X.3  200 non-null values 
X.4  200 non-null values 
X.5  200 non-null values 
X.6  200 non-null values 
X.7  200 non-null values 
X.8  200 non-null values 
X.9  200 non-null values 
X.10 200 non-null values 
X.11 200 non-null values 
X.12 200 non-null values 
dtypes: int64(5), object(7) 

Các tutorial here gợi ý rằng print df chỉ cần cho tôi khung dữ liệu tương ứng. Tôi đang làm gì sai?

Trả lời

2

Tôi nghĩ rằng bạn đang nhận được nó đọc một cách chính xác, nhưng:

  1. Xem: change pandas 0.13.0 "print dataframe" to print dataframe like in earlier versions, đây là những gì gấu trúc làm trong các phiên bản cũ. Vì vậy, cập nhật sẽ giải quyết nó.
  2. Bạn có thể sử dụng ipython notebook, trong đó DataFrames sẽ hiển thị dưới dạng bảng HTML.
  3. Bạn có thể sử dụng df.head(5) (tương tự như r 's head) để nhận được một vài hàng đầu tiên chỉ để đảm bảo rằng DataFrame của bạn là chính xác.
+0

Xin cảm ơn một lần nữa. Tôi nhận được cùng một loại tóm tắt, lần này với các giá trị '5' thay vì' 200'^- ^) ;;; hãy để tôi thử thêm một số chi tiết – biohazard

+0

Bạn phải sử dụng phiên bản đầu tiên, xem bài đăng này: http://stackoverflow.com/questions/21482546/change-pandas-0-13-0-print-dataframe-to-print-dataframe- giống như trong phiên bản trước đó –

+0

Tôi đã thử cả hai liên kết stackoverflow nhưng nó luôn mang lại cho tôi một lỗi thuộc loại 'AttributeError: 'module' không có thuộc tính 'options'' hoặc' không có thuộc tính set_option'. Tôi đã cài đặt 'python-pandas' bằng cách sử dụng' apt-get install' mà tôi vừa tìm, chỉ cài đặt một phiên bản rất cũ: 'pandas .__ version__ = 0.7.0'. Tôi sẽ quay lại bài đăng của bạn sau khi tôi tìm ra cách cập nhật nó. :) – biohazard

Các vấn đề liên quan