2014-12-24 16 views

Trả lời

5
  • summary() ~ describe()
  • head() ~ head()

Tôi không chắc chắn về str() tương đương.

+1

dtypes() là một tương đương thô cho str() –

1

Tôi không biết nhiều về R, nhưng đây là một số dẫn:

str => 

một khó khăn ... cho các chức năng bạn có thể sử dụng dir(), dir() trên bộ dữ liệu sẽ cung cấp cho bạn tất cả các phương pháp, vì vậy có thể đó không phải là những gì bạn muốn ...

summary => describe. 

Xem thông số để tùy chỉnh kết quả.

head => your can use head(), or use slices. 

đầu như bạn đã làm. Để nhận 10 hàng đầu tiên của tập dữ liệu được gọi là ds ds[:10] tương tự cho đuôi ds[:-10]

15

Điều này cung cấp kết quả tương tự với R của str(). Nó trình bày các giá trị duy nhất thay vì các giá trị ban đầu.

def rstr(df): return df.shape, df.apply(lambda x: [x.unique()]) 

print(rstr(iris)) 

((150, 5), sepal_length [[5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.4, 4.8, 4.3,... 
sepal_width  [[3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 2.9, 3.7,... 
petal_length [[1.4, 1.3, 1.5, 1.7, 1.6, 1.1, 1.2, 1.0, 1.9,... 
petal_width  [[0.2, 0.4, 0.3, 0.1, 0.5, 0.6, 1.4, 1.5, 1.3,... 
class   [[Iris-setosa, Iris-versicolor, Iris-virginica]] 
dtype: object) 
5

Pandas cung cấp một rộng Comparison with R/R libraries:

R   | Pandas 
--------------------------- 
summary(df) | df.describe() 
head(df) | df.head() 
4

Đối với một Python tương đương với str() hàm trong R, tôi sử dụng phương pháp dtypes. Điều này sẽ cung cấp các kiểu dữ liệu cho mỗi cột.

In [22]: df2.dtypes 
Out[22]: 
Survived  int64 
Pclass  int64 
Sex   object 
Age   float64 
SibSp   int64 
Parch   int64 
Ticket  object 
Fare  float64 
Cabin  object 
Embarked  object 
dtype: object 
19

Trong gấu trúc phương pháp info() tạo ra một sản lượng rất tương tự như R của str():

> str(train) 
'data.frame': 891 obs. of 13 variables: 
$ PassengerId: int 1 2 3 4 5 6 7 8 9 10 ... 
$ Survived : int 0 1 1 1 0 0 0 0 1 1 ... 
$ Pclass  : int 3 1 3 1 3 3 1 3 3 2 ... 
$ Name  : Factor w/ 891 levels "Abbing, Mr. Anthony",..: 109 191 358 277 16 559 520 629 417 581 ... 
$ Sex  : Factor w/ 2 levels "female","male": 2 1 1 1 2 2 2 2 1 1 ... 
$ Age  : num 22 38 26 35 35 NA 54 2 27 14 ... 
$ SibSp  : int 1 1 0 1 0 0 0 3 0 1 ... 
$ Parch  : int 0 0 0 0 0 0 0 1 2 0 ... 
$ Ticket  : Factor w/ 681 levels "110152","110413",..: 524 597 670 50 473 276 86 396 345 133 ... 
$ Fare  : num 7.25 71.28 7.92 53.1 8.05 ... 
$ Cabin  : Factor w/ 148 levels "","A10","A14",..: 1 83 1 57 1 1 131 1 1 1 ... 
$ Embarked : Factor w/ 4 levels "","C","Q","S": 4 2 4 4 4 3 4 4 4 2 ... 
$ Child  : num 0 0 0 0 0 NA 0 1 0 1 ... 


train.info() 
<class 'pandas.core.frame.DataFrame'> 
RangeIndex: 891 entries, 0 to 890 
Data columns (total 12 columns): 
PassengerId 891 non-null int64 
Survived  891 non-null int64 
Pclass   891 non-null int64 
Name   891 non-null object 
Sex   891 non-null object 
Age   714 non-null float64 
SibSp   891 non-null int64 
Parch   891 non-null int64 
Ticket   891 non-null object 
Fare   891 non-null float64 
Cabin   204 non-null object 
Embarked  889 non-null object 
dtypes: float64(2), int64(5), object(5) 
memory usage: 83.6+ KB 
+0

str không cho biết số lượng các phần tử không null, bị nhầm lẫn? – hhh

Các vấn đề liên quan