2012-01-12 30 views
8

Ok, tôi đang cố gắng tìm hiểu Hadoop và mapreduce. Tôi thực sự muốn bắt đầu với mapreduce và những gì tôi tìm thấy là rất nhiều, nhiều ví dụ đơn giản của người vẽ bản đồ và bộ giảm tốc, vv Tuy nhiên, tôi thấy thiếu một cái gì đó. Trong khi một ví dụ cho thấy có bao nhiêu lần xuất hiện của một từ trong một tài liệu là đơn giản để hiểu nó không thực sự giúp tôi giải quyết bất kỳ vấn đề "thế giới thực" nào. Có ai biết về một hướng dẫn tốt về thực hiện mapreduce trong một tình huống thực tế psuedo. Nói, ví dụ, tôi muốn sử dụng hadoop và mapreduce trên đầu trang của một kho dữ liệu tương tự như Adventureworks. Bây giờ tôi muốn nhận đơn đặt hàng cho một sản phẩm nhất định trong tháng có thể. Làm thế nào mà nhìn từ quan điểm hadoop/mapreduce? (Tôi nhận ra điều này có thể không phải là loại vấn đề mapreduce được dự định để giải quyết nhưng, nó chỉ đến tâm trí một cách nhanh chóng.)Mapreduce for dummies

Bất kỳ hướng nào sẽ giúp ích.

Trả lời

13

Cuốn sách Hadoop: The Definitive Guide là một nơi tốt để bắt đầu. Các chương giới thiệu nên thực sự hữu ích cho bạn để tìm ra nơi MapReduce hữu ích và khi nào bạn nên sử dụng nó. Các chương nâng cao hơn có nhiều ví dụ thực tế hơn số từ.

Nếu bạn muốn tìm hiểu sâu hơn, bạn có thể muốn xem Data-Intensive Text Processing with MapReduce. Điều này chắc chắn có rất nhiều trường hợp sử dụng "thế giới thực", nhưng không có vẻ như bạn quan tâm đến việc xử lý văn bản.


Ví dụ cụ thể của bạn, những điều chính để nhận ra là:

  • giai đoạn bản đồ là chủ yếu để phân tích, chuyển dữ liệu, và lọc ra dữ liệu. Hãy nghĩ cách ghi lại theo từng bản ghi, cách tiếp cận được chia sẻ không có gì để xử lý bản ghi. Trong số lượng từ, điều này là phân tích cú pháp dòng và tách ra các từ.
  • Giai đoạn giảm là tất cả về tổng hợp: đếm, tính trung bình, tối thiểu/tối đa, v.v ... Trong số đếm từ, điều này sẽ đếm các phiên bản của từ đó.

Vì vậy, nếu bạn muốn tất cả các bản ghi cho một sản phẩm nhất định trong tháng 5, bạn có thể sử dụng lệnh bản đồ để lọc qua tất cả dữ liệu và chỉ lưu giữ các bản ghi mà bạn muốn. Tuy nhiên, bạn thực sự nên đọc về những gì Hadoop hữu ích. Câu hỏi phù hợp với Hadoop tốt hơn sẽ là: cho tôi biết số lần mỗi món hàng được mua trong mỗi tháng (để xây dựng một ma trận, có lẽ). Rất hiếm khi bạn đang tìm kiếm các hồ sơ cụ thể như bạn đề nghị.

Nếu bạn đang tìm kiếm nền tảng truy cập thời gian thực hơn, bạn nên kiểm tra HBase khi bạn đã hoàn tất việc tìm hiểu về Hadoop.

+0

Xuất sắc! Cảm ơn bạn rất nhiều! – RockyMountainHigh

+4

"Tôi muốn xem các ví dụ khác ngoài số lượng từ" là một vấn đề phổ biến với những người mới hơn, và thật không may, các giải thích tốt nhất là in. –

4

Hadoop có thể được sử dụng cho nhiều vấn đề khác nhau. Kiểm tra mục nhập blog này từ atbrox. Ngoài ra, có rất nhiều thông tin trên internet về Hadoop và MapReduce và rất dễ bị mất. Vì vậy, here là danh sách tài nguyên hợp nhất trên Hadoop.

BTW, Hadoop - The Definitive Guide 3rd edition sẽ đến hạn vào tháng 5. Dường như nó cũng bao gồm MRv2 (NextGen MapReduce) và cũng bao gồm nhiều nghiên cứu điển hình hơn. Phiên bản thứ 2 đáng được nhắc đến bởi camoctopus.

+0

Liên kết bị hỏng .... – UpTheCreek

+0

cập nhật cảm ơn –

0

MapReduce có thể là một chủ đề phức tạp vì vậy tôi thấy dễ hiểu hơn bằng cách áp dụng cách tiếp cận của nó cho một vấn đề đơn giản. Sau đó, tôi tiếp tục mô tả cách MapReduce làm cho nó đơn giản để giải quyết cùng một vấn đề trong một cụm. Bạn có thể xem trong bài viết của tôi ở đây: Intro to Parallel Processing with MapReduce.

Hãy cho tôi biết nếu bạn cho rằng bài viết này giúp dễ hiểu hơn về MapReduce và Hadoop.