2012-06-28 27 views
26

Storm so sánh với Hadoop như thế nào? Hadoop dường như là tiêu chuẩn defacto cho xử lý hàng loạt quy mô lớn nguồn mở, Storm có bất kỳ lợi thế nào so với hadoop không? hoặc Họ hoàn toàn khác nhau?Apache Storm so với Hadoop

+4

Tôi nghĩ câu hỏi làm toàn toàn hợp lý và thật khó cho tôi để hiểu làm thế nào một câu hỏi hữu ích như đã được đóng cửa như không mang tính xây dựng. Câu hỏi là trực tiếp, không cần sự thật, tài liệu tham khảo, v.v. – mvallebr

Trả lời

37

Tại sao bạn không cho biết ý kiến ​​của mình.

Twitter Bão đã được chào hàng như thời gian thực Hadoop. Đó là nhiều hơn một tiếp thị cho tiêu thụ dễ dàng.

Chúng giống nhau về mặt bề ngoài vì cả hai đều là giải pháp ứng dụng được phân phối. Ngoài các yếu tố kiến ​​trúc được phân bố điển hình như chủ/nô lệ, phối hợp dựa trên sở thú, để tôi so sánh rơi khỏi vách đá.

Twitter giống như một đường ống để xử lý dữ liệu khi nó đến. Đường ống là những gì kết nối các nút tính toán khác nhau nhận dữ liệu, tính toán và phân phối đầu ra. (Có lingo là vòi và bu lông) Mở rộng sự tương tự này với một hệ thống đường ống phức tạp có thể được tái thiết kế khi cần thiết và bạn nhận được Twitter Storm.

Vỏ hạt nó xử lý dữ liệu khi nó đến. Không có độ trễ.

Hadoop mức độ khác nhau về mặt này chủ yếu là do HDFS. Đó là một giải pháp hướng tới lưu trữ phân tán và khả năng chịu mất nhiều cân (đĩa, máy móc, giá đỡ vv)

M/R được xây dựng để tận dụng dữ liệu nội địa hóa trên HDFS. Cùng nhau, họ không cung cấp cơ sở để xử lý dữ liệu theo thời gian thực. Nhưng đó không phải luôn luôn là một yêu cầu khi bạn đang tìm kiếm thông qua dữ liệu lớn. (kim trong tương tự haystack)

Tóm lại, Twitter Storm là giải pháp xử lý dữ liệu thời gian thực được phân phối. Tôi không nghĩ chúng ta nên so sánh chúng. Twitter xây dựng nó bởi vì nó cần một cơ sở để xử lý các mẩu tin nhỏ nhưng số lượng hài hước của họ và trong thời gian thực.

Xem: HStreaming nếu bạn bắt buộc phải so sánh nó với một số điều

+6

+1, đồng ý hoàn toàn. Chỉ cần một lưu ý nhỏ: Twitter đã không xây dựng nó, họ [có được] (http://engineering.twitter.com/2011/08/storm-is-coming-more-details-and-plans.html) nó. BackType xây dựng nó ban đầu. – johndodo

+1

@johndodo: Cảm ơn. Tôi hoàn toàn không biết nguồn gốc của nó. – pyfunc

+0

Tương tự đẹp với đường ống dẫn thay đổi cấu trúc liên kết. – SChepurin

11

Về cơ bản, cả hai đều được sử dụng để phân tích dữ liệu lớn, nhưng cơn bão được sử dụng để chế biến thời gian thực trong khi Hadoop được sử dụng để xử lý hàng loạt.

Đây là một giới thiệu rất tốt Storm mà tôi tìm thấy: Click here

4

Thay vì được so sánh, họ có nghĩa vụ phải bổ sung mỗi bây giờ có hàng loạt + real-time (thời gian giả thực) chế biến khác. Có một bản trình bày video tương ứng - Ted Dunning on Twitter's Storm

+0

Kiến trúc này có thể được nhân đôi trong môi trường cửa sổ không? – vbNewbie

+1

Khá nhiều thứ có thể được sao chép nhưng tôi nghi ngờ điều này sẽ có bất kỳ ý nghĩa nào được thực hiện trong Windows vì Storm được thiết kế để xử lý "thời gian thực". – SChepurin

+0

Ý của bạn là gì theo "thời gian thực giả", vui lòng mở rộng. – samthebest

3

Tôi đã sử dụng Storm trong một thời gian và bây giờ tôi đã thoát khỏi công nghệ thực sự tuyệt vời này: Spark (http://spark.apache.org) cung cấp cho nhà phát triển API thống nhất cho hàng loạt hoặc xử lý trực tuyến (vi-batch) cũng như chế tạo máy và xử lý đồ thị.

đáng để thử.

1

Bão dành cho Dữ liệu nhanh (thời gian thực) & Hadoop dành cho dữ liệu lớn (dữ liệu sẵn có trước đó). Storm không thể xử lý dữ liệu lớn nhưng nó có thể tạo ra dữ liệu lớn làm đầu ra.

0

Apache Storm là hệ thống tính toán thời gian thực được phân phối miễn phí và mã nguồn mở. Storm giúp việc xử lý các luồng dữ liệu không bị ràng buộc một cách đáng tin cậy, làm cho xử lý thời gian thực những gì Hadoop đã thực hiện để xử lý theo lô.

Vì nhiều hệ thống phụ tồn tại trong hệ sinh thái Hadoop, chúng tôi phải chọn hệ thống phụ phù hợp tùy theo yêu cầu kinh doanh & tính khả thi của một hệ thống cụ thể.

Hadoop MapReduce hiệu quả cho việc xử lý hàng loạt một công việc tại một thời điểm. Đây là lý do tại sao Hadoop được sử dụng rộng rãi như một công cụ kho dữ liệu thay vì công cụ phân tích dữ liệu.

Kể từ khi câu hỏi có liên quan đến chỉ "Bão" vs "Hadoop", có một cái nhìn tại Storm use cases - Các dịch vụ tài chính, viễn thông, bán lẻ, sản xuất, giao thông vận tải.

  1. Hadoop MapReduce phù hợp nhất để xử lý theo lô.
  2. Bão là công cụ xử lý luồng hoàn chỉnh và có thể được sử dụng để phân tích dữ liệu theo thời gian thực với thời gian chờ tính theo giây.

Hãy xem dezyre article để so sánh giữa Hadoop, Storm và Spark. Nó giải thích những điểm tương đồng và khác biệt.

Nó có thể được tóm tắt với hình dưới đây (từ dezyre bài viết)

enter image description here

Các vấn đề liên quan