Các tập dữ liệu lớn miễn phí để thử nghiệm với Hadoop

Bạn có biết bất kỳ tập dữ liệu lớn nào để thử nghiệm với Hadoop miễn phí/chi phí thấp không? Bất kỳ liên kết con trỏ/liên kết nào được đánh giá cao.Các tập dữ liệu lớn miễn phí để thử nghiệm với Hadoop

Prefernce:

Atleast một GB dữ liệu.
Dữ liệu nhật ký sản xuất của máy chủ web.

Rất ít trong số họ mà tôi tìm thấy cho đến nay:

Ngoài ra, chúng tôi có thể chạy trình thu thập thông tin của riêng chúng tôi để thu thập dữ liệu từ các trang web, ví dụ: Wikipedia? Bất kỳ con trỏ nào về cách thực hiện điều này cũng được đánh giá cao.

Nguồn

2010-04-20 Sundar

datanami gần đây đăng tải danh sách các liên kết: http: //www.datanami. com/2015/01/29/9-places-get-big-data-now/- có lẽ ai đó có thời gian để chuyển đổi điều này thành câu trả lời đúng. – Nickolay

Vài điểm về câu hỏi của bạn về thu thập thông tin và wikipedia.

Bạn đã liên kết với wikipedia data dumps và bạn có thể sử dụng dự án Cloud9 từ UMD để làm việc với dữ liệu này trong Hadoop.

Họ có một trang về vấn đề này: Working with Wikipedia

nguồn dữ liệu khác để thêm vào danh sách này là:

ClueWeb09 - 1 tỷ trang web thu thập giữa Jan và tháng hai 09. 5TB nén.

Sử dụng trình thu thập thông tin để tạo dữ liệu phải được đăng trong một câu hỏi riêng biệt với một câu hỏi về Hadoop/MapReduce tôi sẽ nói.

Nguồn

2010-04-22 22:17:04

liên kết "Làm việc với Wikipedia" đã chết. là http://lintool.github.com/Cloud9/docs/content/wikipedia.html thay thế này? – f13o

Một nguồn rõ ràng: the Stack Overflow trilogy data dumps. Chúng được cung cấp miễn phí theo giấy phép Creative Commons.

Nguồn

2010-04-20 11:25:12 APC

@toddlermenot - Dumps hiện được lưu trữ trên Internet Archive. Tôi đã cập nhật liên kết. Đọc lý do tại sao nó thay đổi [trên trang SE Blog này] (https: //blog.stackexchange.com/2014/01/stack-exchange-cc-data-now-được lưu trữ-by-the-internet-archive /). – APC

Đó là không có tập tin log nhưng có lẽ bạn có thể sử dụng các tập tin hành tinh từ OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet.osm

giấy phép CC, khoảng 160 GB (giải nén)

Có file cũng nhỏ hơn cho mỗi lục địa: http://wiki.openstreetmap.org/wiki/World

Nguồn

2010-04-20 11:33:06 Olvagor

Đây là một bộ sưu tập của 189 bộ dữ liệu cho máy học (đó là một trong những ứng dụng đẹp nhất cho hadoop g): http://archive.ics.uci.edu/ml/datasets.html

Nguồn

2010-04-23 13:15:48

Các tập dữ liệu lớn miễn phí để thử nghiệm với Hadoop

Trả lời

Các vấn đề liên quan