2013-04-18 24 views
9

Tôi có một vài vấn đề có thể áp dụng tốt cho mô hình Map-Reduce. Tôi muốn thử nghiệm với việc triển khai chúng, nhưng ở giai đoạn này tôi không muốn gặp rắc rối khi cài đặt một hệ thống hạng nặng như Hadoop hay Disco.Có một khung bản đồ giảm thiểu Python đơn giản sử dụng hệ thống tập tin thông thường không?

Có khung công tác Python nhẹ để giảm bản đồ sử dụng hệ thống tệp thông thường cho đầu vào, tệp tạm thời và đầu ra không?

+2

Được rồi, tôi đang tìm kiếm nội dung tuyệt vời bằng cách googling "python map-reduce", do đó, một điểm cho sự rõ ràng. Kiểm tra [Parallel MapReduce in Python] (http://mikecvet.wordpress.com/2010/07/02/parallel-mapreduce-in-python/) sử dụng hàm python 'map' và' reduce' được tích hợp sẵn với đa xử lý hồ bơi. Tôi đoán kể từ khi bản đồ và giảm đã có, một điểm khác cho sự rõ ràng! – tdelaney

+0

bạn có thể tìm thấy pydoop hữu ích. http://pydoop.sourceforge.net/docs/index.html – Tariq

+0

@tdelaney, tôi biết có rất nhiều kết quả. Lý do tôi hỏi ở đây là để xem những gì người thực sự đã sử dụng với kết quả phong nha. SO không chỉ dành cho những thứ không thể bỏ qua. – Reid

Trả lời

10

Một Coursera nhiên dành riêng cho dữ liệu lớn cho thấy sử dụng những trăn nhẹ Map-Giảm khung:

Để giúp bạn bắt đầu một cách nhanh chóng, hãy thử ví dụ này:

https://github.com/michaelfairley/mincemeatpy/zipball/v0.1.2

(gợi ý: cho [địa chỉ máy chủ] trong ví dụ sử dụng localhost này)

+0

Khóa học Coursera nào đang được giới thiệu ở đây? – Shoan

+0

https://www.coursera.org/course/bigdata?from_restricted_preview=1&course_id=970315&r=https%3A%2F%2Fclass.coursera.org%2Fbigdata-002%2Fclass – Pavel

5

http://pythonhosted.org/mrjob/ là rất tốt để nhanh chóng bắt đầu trên máy tính cục bộ của bạn, về cơ bản tất cả bạn cần là một đơn giản:

pips cài đặt mrjob

+1

Đây phải là câu trả lời đúng. Không chỉ nó cho phép bạn làm việc trên các tệp cục bộ của bạn, bao gồm chơi và học với MR, nhưng nó cho phép bạn làm như vậy một cách minh bạch và thống nhất ** cũng ** trên giải pháp AWS hadoop (EMR) và cụm hadoop cục bộ của bạn. https://github.com/Yelp/mrjob – mork

+0

Nhưng khi chạy MRJob cục bộ, nó dường như không chạy các tác vụ song song. Hay không? – Andy

1

Kiểm tra Apache Spark. Nó được viết bằng Java nhưng nó cũng có một API Python. Bạn có thể thử nó cục bộ trên máy của bạn và sau đó, khi bạn cần nó, bạn có thể dễ dàng phân phối tính toán của bạn trên một cụm.

0

Vì vậy, điều này đã được hỏi từ nhiều năm trước, nhưng tôi đã làm việc trên một bản thực hiện đầy đủ các mapreduce vào cuối tuần: remap.

https://github.com/gtoonstra/remap

Khá dễ dàng để cài đặt với sự phụ thuộc tối thiểu, nếu mọi việc suôn sẻ, bạn nên có thể chạy một chạy thử nghiệm trong vòng 5 phút.

Toàn bộ đường ống xử lý hoạt động nhưng việc gửi và giám sát công việc vẫn đang được thực hiện.

Các vấn đề liên quan