Bạn có thể sử dụng rpy2
gói để truy cập tất cả các tập hợp dữ liệu R từ Python.
Thiết lập giao diện:
>>> from rpy2.robjects import r, pandas2ri
>>> def data(name):
... return pandas2ri.ri2py(r[name])
Sau đó gọi data()
với tên bất kỳ của bộ dữ liệu của các tập dữ liệu có sẵn (giống như trong R
)
>>> df = data('iris')
>>> df.describe()
Sepal.Length Sepal.Width Petal.Length Petal.Width
count 150.000000 150.000000 150.000000 150.000000
mean 5.843333 3.057333 3.758000 1.199333
std 0.828066 0.435866 1.765298 0.762238
min 4.300000 2.000000 1.000000 0.100000
25% 5.100000 2.800000 1.600000 0.300000
50% 5.800000 3.000000 4.350000 1.300000
75% 6.400000 3.300000 5.100000 1.800000
max 7.900000 4.400000 6.900000 2.500000
Để xem danh sách các bộ dữ liệu có sẵn với mô tả cho mỗi:
>>> print(r.data())
Lưu ý: rpy2 yêu cầu R
cài đặt với cài đặt R_HOME
biến và pandas
cũng phải được cài đặt.
UPDATE:
tôi vừa tạo PyDataset, mà là một module đơn giản để làm cho tải một bộ dữ liệu từ Python dễ dàng như R
's (và nó không đòi hỏi R
cài đặt, chỉ pandas
).
Để bắt đầu sử dụng nó, cài đặt các module:
$ pip install pydataset
sau đó chỉ cần tải lên bất kỳ dữ liệu mà bạn muốn (hiện tại khoảng 757 bộ dữ liệu có sẵn):
from pydataset import data
titanic = data('titanic')
Nguồn
2016-01-22 09:42:57
chắc chắn chỉ cần đi google ... "dữ liệu csv" và nhập nó với các module csv ... –
liên quan http://stackoverflow.com/questions/ 28417293/sample-datasets-in-pandas –