2008-08-15 79 views
12

Tôi luôn tìm các bộ dữ liệu lớn để kiểm tra các loại chương trình khác nhau. Có ai có bất cứ đề nghị?Bộ dữ liệu lớn

Trả lời

10

Khám phá netflix contest. Tôi tin rằng họ tiếp xúc với cơ sở dữ liệu của họ, hoặc một tập hợp con lớn, để tạo thuận lợi cho cuộc thi.

CẬP NHẬT: Their faq cho biết họ có 100 triệu mục nhập trong tập hợp con bạn có thể tải xuống.

1

Bạn có thể muốn xem dữ liệu ngẫu nhiên tạo cho Fuzz Testing. Điều đó sẽ cung cấp cho bạn số lượng dữ liệu thử nghiệm không giới hạn và bạn có nhiều khả năng gặp phải các trường hợp cạnh hơn.

Có thể một số thông tin khác về loại dữ liệu thử nghiệm bạn muốn, định dạng và loại ứng dụng nào?

1

Tôi không biết nền tảng đích của bạn là gì, nhưng nếu bạn đang phát triển dựa vào cơ sở dữ liệu MSSQL, hãy kiểm tra Visual Studio for Database Professionals. Nó có một tính năng rất thú vị, nơi nó có thể tạo dữ liệu cho lược đồ của bạn bằng cách sử dụng một gói dữ liệu mà bạn có thể xác định.

Redgate cũng có công cụ tạo mã, nhưng tôi chưa sử dụng công cụ này.

Lợi thế là bạn có thể tạo kế hoạch tạo dữ liệu và sử dụng nó để điền cơ sở dữ liệu của bạn với một lượng lớn dữ liệu nhất quán có thể được điều chỉnh để kiểm tra các khu vực cụ thể của lược đồ của bạn.

1

Bạn cũng có thể muốn xem theinfo bởi Aaron Swartz.

Từ trang web

Đây là một trang web cho các tập dữ liệu lớn và những người yêu mến họ: chọc và crawlers người thu thập chúng, các học giả và chuyên viên máy tính người xử lý chúng, các nhà thiết kế và các nghệ sĩ hình dung chúng. Đó là nơi mà họ có thể trao đổi mẹo và thủ thuật, phát triển và chia sẻ các công cụ với nhau và bắt đầu tích hợp các dự án cụ thể của họ.

2

Tôi đã thực hiện một số công việc với bộ tải xuống Wikimedia, là các tệp XML khổng lồ. Rất tiếc, máy chủ tải xuống của họ dường như hiện đang gặp sự cố về dung lượng ổ đĩa nên rất nhiều tập dữ liệu không có sẵn. Nhưng khi nó có sẵn, toàn bộ dữ liệu Wikipedia tiếng Anh được thiết lập với lịch sử đầy đủ là 2,8 TB (18 GB nén).

5

Bạn có thể muốn xem dữ liệu cho Hiệp hội thống kê Hoa Kỳ data expo - chi tiết chuyến bay cho tất cả các chuyến bay thương mại tại Hoa Kỳ trong 20 năm qua - 120 triệu bản ghi, 11 gig dữ liệu.

2

Một số trang del.icio.us người dùng (bao gồm cả bản thân tôi) chứa dữ liệu công khai bằng thẻ "publicdata". Bạn có thể tìm thấy kho lưu trữ here và đăng ký nguồn cấp dữ liệu RSS cho thẻ đó here. Đăng ký nguồn cấp dữ liệu và bạn sẽ thấy một luồng dữ liệu thú vị ổn định bật lên trên web.

Không phải tất cả các bộ dữ liệu đó đều lớn, nhưng chúng thường thú vị.

0

Nếu bạn quan tâm đến việc cá nhân hóa loại dữ liệu bạn đang nhận được, hãy xem Kimono Labs.Đó là phần mềm web-scraping bạn có thể sử dụng để cạo chỉ là về bất kỳ trang web miễn phí mà không có hàng trả về giới hạn. Chỉ cần thiết lập một API trên đó (bạn có thể sử dụng trình tạo url của họ để loại bỏ một loạt các url cùng một lúc) và sau đó sử dụng tập dữ liệu cá nhân của bạn dưới dạng JSON, CSV hoặc RSS.

Các vấn đề liên quan