2011-07-07 19 views

Trả lời

16

Kiểm tra điều này article. Dremel là cái tương lai của tổ ong nên (và sẽ).

Vấn đề chính của MapReduce và các giải pháp trên đầu trang của nó, như Pig, Hive, vv là họ có độ trễ vốn có giữa chạy công việc và nhận câu trả lời. Dremel sử dụng một cách tiếp cận hoàn toàn mới lạ (ra mắt trong năm 2010 trong bài báo rằng bằng google) mà ...

... sử dụng một động cơ thực hiện truy vấn cuốn tiểu thuyết dựa trên cây aggregator ...

. ..để chạy hầu hết thời gian thực, tương tácadhoc truy vấn cả hai không thể MapReduce. Và heo và Hive không phải là thời gian thực

Bạn nên theo dõi projects sắp ra khỏi điều này. Có phải là khá mới cho tôi quá ... vì vậy bất kỳ ý kiến ​​chuyên gia khác được chào đón!

Edit: Dremel là những gì tương lai của Hive (và không MapReduce như tôi đã đề cập trước đó) nên. Hive ngay bây giờ cung cấp một giao diện SQL giống như để chạy các công việc MapReduce. Hive có độ trễ rất cao và do đó không thực tế trong phân tích dữ liệu đặc biệt. Dremel cung cấp một SQL rất nhanh như giao diện cho dữ liệu bằng cách sử dụng một kỹ thuật khác với MapReduce.

+0

Ok, nhưng phần mềm Storm thì sao? – kirugan

+4

Muốn thêm vào các chi tiết trên, hãy xem Apache Drill, đây là một triển khai mã nguồn mở của Dremel của Google. –

3

MapReduce là một thuật toán trừu tượng về cách phân chia vấn đề, phân phối và kết hợp kết quả. Dremel dường như là một công cụ cụ thể để truy vấn và phân tích các tập dữ liệu.

34

DremelMapReduce không thể so sánh trực tiếp được, mà đúng hơn là các công nghệ bổ sung.

MapReduce không được thiết kế đặc biệt để phân tích dữ liệu - thay vào đó là khung phần mềm cho phép thu thập các nút để giải quyết các vấn đề tính toán phân tán cho các tập dữ liệu lớn.

Dremel là công cụ phân tích dữ liệu được thiết kế để nhanh chóng chạy truy vấn trên các tập dữ liệu có cấu trúc lớn (chẳng hạn như tệp nhật ký hoặc sự kiện). Nó hỗ trợ cú pháp giống SQL, nhưng ngoài các phụ lục của bảng, nó là chỉ đọc. Nó không hỗ trợ cập nhật hoặc tạo chức năng, cũng như không có tính năng chỉ mục bảng. Dữ liệu được tổ chức theo định dạng "cột", góp phần vào tốc độ truy vấn rất nhanh. Sản phẩm BigQuery của Google là triển khai Dremel có thể truy cập qua RESTful API.

Hadoop (triển khai mã nguồn mở MapReduce) cùng với phần mềm lưu trữ dữ liệu "Hive", cũng cho phép phân tích dữ liệu cho các tập dữ liệu khổng lồ bằng cú pháp kiểu SQL. Hive về cơ bản biến các truy vấn thành các hàm MapReduce. Ngược lại với việc sử dụng định dạng ColumIO, Hive cố gắng thực hiện truy vấn nhanh chóng bằng cách sử dụng các kỹ thuật như lập chỉ mục bảng.

+1

btw, đầu vào chỉ đọc, nhưng bạn có thể thực hiện đầu ra của các truy vấn Dremel để tái sử dụng trong tương lai –

Các vấn đề liên quan