2010-04-20 34 views
35

Bạn có biết bất kỳ tập dữ liệu lớn nào để thử nghiệm với Hadoop miễn phí/chi phí thấp không? Bất kỳ liên kết con trỏ/liên kết nào được đánh giá cao.Các tập dữ liệu lớn miễn phí để thử nghiệm với Hadoop

Prefernce:

  • Atleast một GB dữ liệu.

  • Dữ liệu nhật ký sản xuất của máy chủ web.

Rất ít trong số họ mà tôi tìm thấy cho đến nay:

  1. Wikipedia dump

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

Ngoài ra, chúng tôi có thể chạy trình thu thập thông tin của riêng chúng tôi để thu thập dữ liệu từ các trang web, ví dụ: Wikipedia? Bất kỳ con trỏ nào về cách thực hiện điều này cũng được đánh giá cao.

+0

datanami gần đây đăng tải danh sách các liên kết: http: //www.datanami. com/2015/01/29/9-places-get-big-data-now/- có lẽ ai đó có thời gian để chuyển đổi điều này thành câu trả lời đúng. – Nickolay

Trả lời

10

Vài điểm về câu hỏi của bạn về thu thập thông tin và wikipedia.

Bạn đã liên kết với wikipedia data dumps và bạn có thể sử dụng dự án Cloud9 từ UMD để làm việc với dữ liệu này trong Hadoop.

Họ có một trang về vấn đề này: Working with Wikipedia

nguồn dữ liệu khác để thêm vào danh sách này là:

  • ClueWeb09 - 1 tỷ trang web thu thập giữa Jan và tháng hai 09. 5TB nén.

Sử dụng trình thu thập thông tin để tạo dữ liệu phải được đăng trong một câu hỏi riêng biệt với một câu hỏi về Hadoop/MapReduce tôi sẽ nói.

+1

liên kết "Làm việc với Wikipedia" đã chết. là http://lintool.github.com/Cloud9/docs/content/wikipedia.html thay thế này? – f13o

10

Một nguồn rõ ràng: the Stack Overflow trilogy data dumps. Chúng được cung cấp miễn phí theo giấy phép Creative Commons.

+0

@toddlermenot - Dumps hiện được lưu trữ trên Internet Archive. Tôi đã cập nhật liên kết. Đọc lý do tại sao nó thay đổi [trên trang SE Blog này] (https: //blog.stackexchange.com/2014/01/stack-exchange-cc-data-now-được lưu trữ-by-the-internet-archive /). – APC

Các vấn đề liên quan