Bộ dữ liệu để chạy Phân tích thống kê trên

3

http://www.data.gov/ có thể có thứ bạn có thể sử dụng.

Trong danh mục của họ về dữ liệu thô bạn có thể đặt tiêu chí của bạn cho các dữ liệu và tìm thấy những gì bạn đang tìm kiếm http://www.data.gov/catalog/raw

Nguồn

2010-02-12 13:48:20

5

bạn đã xem xét Stack Overflow Data Dumps?

Bạn đã quen thuộc với những gì các dữ liệu đại diện tức là logic kinh doanh nó theo dõi

Nguồn

2010-02-12 13:51:29

5

http://www.data.gov.uk/data

Gần đây thiết lập bởi Tim Berners-Lee

dữ liệu Rõ ràng Vương quốc Anh dựa, nhưng đó không phải vấn đề . Bao gồm mọi thứ từ xe ô tô bị bỏ hoang đến trường vắng mặt cho chỉ số giá nông nghiệp

Nguồn

2010-02-12 13:52:27

3

Có thể tìm thấy một gói 268 small text files (ví dụ làm việc "The R Book") tại The R Book's companion website.

Nguồn

2010-02-12 14:00:20

46

Gói datasets được bao gồm với cơ sở R. Chạy lệnh này để xem danh sách đầy đủ:

library(help="datasets")

Ngoài ra, có rất nhiều gói mà có thể kéo dữ liệu, và nhiều người khác có chứa dữ liệu quan trọng. Trong số này, bạn có thể muốn bắt đầu bằng cách xem gói HistData, "cung cấp tập hợp các tập dữ liệu nhỏ thú vị và quan trọng trong lịch sử thống kê và hiển thị dữ liệu".

Đối với dữ liệu tài chính, the quantmod package cung cấp một giao diện chung cho kéo dữ liệu chuỗi thời gian từ google, yahoo, Fred, và những người khác:

library(quantmod) 
getSymbols("YHOO",src="google") # from google finance 
getSymbols("GOOG",src="yahoo") # from yahoo finance 
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED

FRED (the Federal Reserve of St. Louis) thực sự là một bom mìn số liệu kinh tế tự do.

Nhiều gói R đi kèm với dữ liệu cụ thể cho mục tiêu của chúng. Vì vậy, nếu bạn quan tâm đến di truyền học, mô hình đa cấp, vv, các gói có liên quan sẽ thường xuyên có ví dụ kinh điển cho phân tích đó. Ngoài ra, các gói sách thường đi kèm với dữ liệu cần thiết để tái tạo tất cả các ví dụ.

Dưới đây là một số ví dụ về các gói liên quan:

alr3: bao gồm dữ liệu đi cùng Applied Linear Regression (http://www.stat.umn.edu/alr)
arm: bao gồm một số dữ liệu từ "Phân tích dữ liệu Gelman của Sử dụng Regression và đa cấp/Mô hình phân cấp "(phần còn lại của dữ liệu và mã là trên the book's website)
BaM: bao gồm dữ liệu từ" Phương pháp Bayesian: Phương pháp tiếp cận khoa học xã hội và hành vi "
BayesDA: bao gồm dữ liệu từ "Bayesian phân tích dữ liệu" Gelman của
cat: bao gồm dữ liệu để phân tích các bộ dữ liệu phân loại biến
cimis: từ lấy dữ liệu từ CIMIS, California Hệ thống thông tin quản lý thủy lợi
cshapes: bao gồm Ranh giới dữ liệu GIS và dữ liệu
ecdat: bộ dữ liệu cho số học kinh tế
ElemStatLearn: bao gồm dữ liệu từ "Các yếu tố về thống kê, khai thác dữ liệu, suy luận, và Dự đoán"
emdbook: dữ liệu từ 'Mô hình sinh thái và dữ liệu'
Fahrmeir: Dữ liệu từ cuốn sách 'đa biến thống kê Modeling Dựa trên Generalized tuyến tính Mô hình'
fEcoFin: 'Kinh tế và Tài chính Tập dữ liệu' cho Rmetrics
fds: dữ liệu chức năng đặt
fma: tập hợp dữ liệu từ "Dự báo: phương pháp và ứng dụng"
gamair: dữ liệu cho "Generalized Additive Mô hình: Giới thiệu với R"
geomapdata: dữ liệu cho địa hình và địa chất Mapping
nutshell: chứa tất cả các dữ liệu từ 'R in a Nutshell' Cuốn sách
nytR: cung cấp quyền truy cập vào dữ liệu bỏ phiếu của quốc hội thông qua NY Times API
openintro: dữ liệu từ cuốn sách
primer: bao gồm dữ liệu cho "Một Primer Sinh thái với R"
qtlbook: bao gồm dữ liệu cho cuốn sách R/qtl
RGraphics: bao gồm dữ liệu từ "R Graphics" Cuốn sách
Read.isi: truy cập vào dữ liệu khảo sát khả năng sinh sản Thế giới cũ

Nguồn

2010-02-12 14:31:26 Shane

+0

Wow Shane, câu trả lời chi tiết đáng kinh ngạc là gì - cảm ơn bạn! –

+0

Bạn cũng có thể thêm gói 'tidyquant' để thu thập dữ liệu tài chính và kinh tế bằng cách sử dụng hàm' tq_get() '. –

2

Xem sự cạnh tranh dữ liệu được thành lập bởi Hadley Wickham cho phần Data Expo of the ASA Statistical Computing and Statistical Graphics. Cuộc thi kết thúc, the data vẫn ở đó.

Nguồn

2010-02-12 14:32:24

3

Bạn có thể nhìn this post on FlowingData

Nguồn

2010-02-12 14:37:24 Marek

7

Một lựa chọn rộng rãi trên Web.Ví dụ, đây là một thư mục lớn của sports databases (tất cả cung cấp dữ liệu miễn phí, ít nhất đó là kinh nghiệm của tôi). Trong thư mục đó là databaseBaseball.com, trong đó có chứa một số thứ khác, complete datasets cho mọi người chơi từng chơi bóng chày chuyên nghiệp kể từ khoảng năm 1915.

StatLib là một tài nguyên tuyệt vời khác - rất tiện lợi. web page liệt kê 4-5 tóm tắt dòng này với hơn một trăm cơ sở dữ liệu, tất cả đều có sẵn dưới dạng tệp phẳng chỉ bằng cách nhấp vào liên kết 'Bảng' ở đầu mỗi tóm tắt tập dữ liệu.

Phân phối cơ bản của R được đóng gói sẵn với một tập hợp lớn và đa dạng các datast (122 trong R 2.10). Để có danh sách các mô tả này (cũng như mô tả một dòng):

data(package="datasets")

Tương tự như vậy, hầu hết các gói đều có nhiều bộ dữ liệu (đôi khi nhiều hơn). Bạn có thể thấy chúng theo cùng một cách:

data(package="latticeExtra") 
data(package="vcd")

Các bộ dữ liệu này được đề cập trong hướng dẫn sử dụng gói và họa tiết cho một gói nhất định và được sử dụng để minh họa các tính năng gói.

Một vài gói R có nhiều bộ dữ liệu (dễ dàng quét lại để bạn có thể chọn những gì thú vị cho bạn): AER, DAAG và vcd.

Một điều tôi thấy rất ấn tượng về R là I/O của nó. Giả sử bạn muốn nhận được một số dữ liệu tài chính rất cụ thể thông qua API tài chính yahoo. Hãy nói rằng đóng mở và giá của S & P 500 đóng cho mỗi tháng 2.001-2.009, chỉ cần làm điều này:

tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?", 
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv"))

Trong một dòng mã này, R đã lấy các dữ liệu đánh dấu, hình nó vào một dataframe và ràng buộc nó thành 'tick_data' tất cả. (Đây là một tiện dụng cheat sheet w/biểu tượng API Yahoo Finance đã sử dụng để xây dựng các URL như trên)

Nguồn

2010-02-12 14:37:58 doug

+0

Câu trả lời tuyệt vời doug - cảm ơn bạn! –

+0

Tôi nghĩ lệnh tick_data là sai. Bạn đang thiếu một sep = "" trong phần dán. – csgillespie

1

Tương tự như data.gov, nhưng châu Âu làm trung tâm là Eurostat

http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database

và có một thống kê Trung Quốc Lãnh thổ hải cũng vậy, như đã đề cập bởi Wildebeests

http://www.stats.gov.cn/english/statisticaldata/monthlydata/index.htm

Sau đó, có một số "dịch vụ dữ liệu xã hội" trong đó cung cấp việc tải các tập dữ liệu, s uch là xoay, nhiều mắt, timetric, ckan, infochimps ..

Nguồn

2010-02-12 15:29:34

1

Tôi đã nhìn thấy các câu hỏi khác của bạn rằng bạn dường như quan tâm đến việc hiển thị dữ liệu. Sau đó, hãy xem dự án many eyes (mẫu IBM) và mẫu data sets.

Nguồn

2010-02-12 15:45:24 ewernli

+0

Rất cám ơn ewernli :) –

3

Một trang web tốt khác là UN Data.

Division Liên Hiệp Quốc thống kê (UNSD) của Cục Kinh tế và Xã hội (DESA) tung ra một dịch vụ dữ liệu dựa internet mới cho cộng đồng người dùng toàn cầu. Nó mang lại cơ sở dữ liệu thống kê của LHQ trong phạm vi dễ dàng phạm vi tiếp cận của người dùng thông qua một mục nhập điểm (http://data.un.org/).Người dùng có thể hiện tìm kiếm và tải xuống một loạt các tài nguyên thống kê của hệ thống UN của LHQ.

Nguồn

2010-02-12 16:00:02 Shane

2

UC Irvine Machine Learning Repository hiện có 190 tập dữ liệu.

Các UCI Machine Learning Repository là một tập hợp các cơ sở dữ liệu, máy phát điện miền lý thuyết, và dữ liệu mà là sử dụng bởi các cộng đồng học máy cho việc phân tích thực nghiệm các thuật toán học máy .

Nguồn

2010-02-12 16:53:07

4

Một khởi đầu tốt để tìm kiếm dữ liệu kinh tế luôn là ba địa chỉ sau:

Một bản tóm tắt tốt đẹp của các liên kết dữ liệu cho sự phát triển các nhà kinh tế có thể được tìm thấy tại:

Devecondata

Edit:

Ngân hàng Thế giới đã quyết định vào tuần trước để mở ra rất nhiều bộ dữ liệu trước đây không tự do của mình và xuất bản chúng trực tuyến trên trang chủ sửa đổi của nó. Giao diện internet mới cũng khá đẹp.