2012-02-24 29 views
18

Tôi đã tìm thấy nhiều tùy chọn gần đây và thú vị trong việc so sánh các tùy chọn của chúng một cách thận trọng trước sự trưởng thành và ổn định.Thư viện trưởng thành nhất để xây dựng Đường ống Analytics trong Java/Scala cho Hadoop là gì?

  1. Crunch - https://github.com/cloudera/crunch
  2. nhai - https://github.com/cloudera/crunch/tree/master/scrunch
  3. Cascading - http://www.cascading.org/
  4. bỏng https://github.com/twitter/scalding
  5. FlumeJava
  6. Scoobi - https://github.com/NICTA/scoobi/

Trả lời

2

Việc mở rộng cũng có lợi thế về các dự án mã nguồn mở đáng kể được xây dựng trên đầu trang, chẳng hạn như API ma trận và Algebird.

Dưới đây là một số ví dụ: http://sujitpal.blogspot.com/2012/08/scalding-for-impatient.html

Cascalog được phát hành gần hai năm trước khi bị bỏng, và được cho là có nhiều tính năng tiên tiến hơn cho việc xây dựng quy trình công việc mạnh mẽ: https://github.com/nathanmarz/cascalog/wiki

14

Như tôi là một nhà phát triển của Scoob tôi, tôi không mong đợi một câu trả lời không thiên vị.

Trước hết, FlumeJava là một dự án google nội bộ cung cấp một ontop trừu tượng (awesomely) trừu tượng của MapReduce (không phải là hadoop). Họ phát hành một bài báo về nó, đó là những gì các dự án như Scoobi và Crunch được dựa trên.

Nếu tiêu chí duy nhất của bạn là ngày đáo hạn - tôi đoán Cascading là đặt cược tốt nhất của bạn.

Tuy nhiên, nếu bạn đang tìm kiếm (trừu tượng cao cấp) FlumeJava phong cách trừu tượng, bạn sẽ muốn chọn giữa (S) khủng hoảng và Scoobi.

Sự khác biệt lớn nhất, bề ngoài vì nó có thể là khủng hoảng được viết bằng Java, với các ràng buộc Scala (Scrunch). Và Scoobi được viết bằng Scala với các ràng buộc Java (scoobij). Cả hai đều là lựa chọn thực sự vững chắc, và bạn sẽ không đi sai bao giờ bạn chọn. Tôi chắc rằng có một câu chuyện tương tự với Crunch, nhưng Scoobi đang được sử dụng trong các dự án thực sự và đang được phát triển liên tục. Chúng tôi khá tích cực trong việc sửa lỗi và triển khai các tính năng.

Dù sao, chúng là cả hai dự án tuyệt vời với những người tuyệt vời đứng sau họ và cả hai đều được thả trong vòng vài ngày. Chúng cung cấp cùng một sự trừu tượng (với api tương tự), vì vậy việc chuyển đổi giữa hai loại này sẽ không phải là vấn đề nhỏ nhất. Đề nghị của tôi là để cung cấp cho họ cả hai thử, và xem những gì làm việc cho bạn. Có một không khóa trong trong cả hai dự án, do đó bạn không cần phải cam kết :)

Và nếu bạn có bất kỳ thông tin phản hồi cho cả hai dự án, hãy chắc chắn để cung cấp cho nó :)

5

tôi là một lớn Scoobi người hâm mộ bản thân mình và tôi đã sử dụng nó trong sản xuất. Tôi thích cách nó cho phép bạn viết các chương trình Hadoop loại an toàn theo cách Scala rất thành ngữ. Nếu đó không nhất thiết phải là điều của bạn và bạn thích mô hình Cascading nhưng lại sợ hãi bởi số lượng lớn mã soạn sẵn mà bạn phải viết, Twitter gần đây đã mở nguồn lớp trừu tượng Scala của riêng nó trên đầu trang Cascading được gọi là Scalding.

Tôi đoán đó là tất cả một vấn đề của hương vị vào thời điểm này kể từ khi tính năng khôn ngoan nhất trong những khuôn khổ rất gần gũi với nhau.

Các vấn đề liên quan