2013-05-16 31 views
10

Để thử nghiệm nhanh, gỡ lỗi, tạo ví dụ di động và đo điểm chuẩn, R có sẵn cho một số lượng lớn các tập dữ liệu (trong gói Base R datasets). Lệnh library(help="datasets") tại lời nhắc R mô tả gần 100 bộ dữ liệu lịch sử, mỗi bộ dữ liệu có mô tả và siêu dữ liệu được kết hợp.Có bất kỳ tập dữ liệu ví dụ nào cho Python không?

Có điều gì tương tự với Python không?

+1

chắc chắn chỉ cần đi google ... "dữ liệu csv" và nhập nó với các module csv ... –

+0

liên quan http://stackoverflow.com/questions/ 28417293/sample-datasets-in-pandas –

Trả lời

20

Bạn có thể sử dụng rpy2 gói để truy cập tất cả các tập hợp dữ liệu R từ Python.

Thiết lập giao diện:

>>> from rpy2.robjects import r, pandas2ri 
>>> def data(name): 
... return pandas2ri.ri2py(r[name]) 

Sau đó gọi data() với tên bất kỳ của bộ dữ liệu của các tập dữ liệu có sẵn (giống như trong R)

>>> df = data('iris') 
>>> df.describe() 
     Sepal.Length Sepal.Width Petal.Length Petal.Width 
count 150.000000 150.000000 150.000000 150.000000 
mean  5.843333  3.057333  3.758000  1.199333 
std  0.828066  0.435866  1.765298  0.762238 
min  4.300000  2.000000  1.000000  0.100000 
25%  5.100000  2.800000  1.600000  0.300000 
50%  5.800000  3.000000  4.350000  1.300000 
75%  6.400000  3.300000  5.100000  1.800000 
max  7.900000  4.400000  6.900000  2.500000 

Để xem danh sách các bộ dữ liệu có sẵn với mô tả cho mỗi:

>>> print(r.data()) 


Lưu ý: rpy2 yêu cầu R cài đặt với cài đặt R_HOME biến và pandas cũng phải được cài đặt.

UPDATE:

tôi vừa tạo PyDataset, mà là một module đơn giản để làm cho tải một bộ dữ liệu từ Python dễ dàng như R 's (và nó không đòi hỏi R cài đặt, chỉ pandas).

Để bắt đầu sử dụng nó, cài đặt các module:

$ pip install pydataset

sau đó chỉ cần tải lên bất kỳ dữ liệu mà bạn muốn (hiện tại khoảng 757 bộ dữ liệu có sẵn):

from pydataset import data 

titanic = data('titanic') 
+2

Đẹp một @iamaziz với bản cập nhật của bạn (PyDataset), ý tưởng tuyệt vời! Cho bạn đánh dấu màu xanh lá cây ngay bây giờ vì điều này có vẻ là câu trả lời hay nhất. –

+0

cảm ơn @adifferentben !! hy vọng bạn cảm thấy nó hữu ích :-) –

2

Theo nhận xét của Joran, tôi đã tìm thấy mô-đun statsmodels, cung cấp gói datasets của riêng mình. online documentation hiển thị ví dụ về cách nhập bộ dữ liệu có sẵn trong R:

import statsmodels.api as sm 
duncan_prestige = sm.datasets.get_rdataset("Duncan", "car") 
print duncan_prestige.__doc__ 
1

MyMVPA là một mô-đun khác giúp dễ dàng truy cập cơ sở dữ liệu. Bạn có thể kiểm tra liên kết bên dưới.

>>> from mvpa2.tutorial_suite import * 
>>> data = [[ 1, 1, -1], 
...   [ 2, 0, 0], 
...   [ 3, 1, 1], 
...   [ 4, 0, -1]] 
>>> ds = Dataset(data) 
>>> ds.shape 
(4, 3) 
>>> len(ds) 
4 

Ví dụ từ liên kết

http://www.pymvpa.org/tutorial_datasets.html

8

Có cũng tập hợp dữ liệu có sẵn từ thư viện Scikit-Learn.

from sklearn import datasets 

Có nhiều bộ dữ liệu trong gói này.Một số Datasets Toy là:

load_boston()   Load and return the boston house-prices dataset (regression). 
load_iris()   Load and return the iris dataset (classification). 
load_diabetes()  Load and return the diabetes dataset (regression). 
load_digits([n_class]) Load and return the digits dataset (classification). 
load_linnerud()  Load and return the linnerud dataset (multivariate regression). 
0

Cụ thể, sử dụng @tmthydvnprt dụ:

from sklearn import datasets 
iris = datasets.load_iris() 

Bộ dữ liệu thực tế có thể được gọi bằng cách làm iris.data.

http://scikit-learn.org/stable/datasets/

Chạy Python 3.5

Các vấn đề liên quan