Tại sao kết hợp các giải pháp? Hadoop có một số khả năng tuyệt vời (xem url bên dưới). Những khả năng này mặc dù không bao gồm cho phép người dùng doanh nghiệp chạy phân tích nhanh. Các truy vấn mất 30 phút đến vài giờ trong Hadoop đang được phân phối trong 10 giây với Infobright.
BTW, câu hỏi ban đầu của bạn không giả định kiến trúc MPP và vì lý do chính đáng. Khách hàng của Infobright Liverail, AdSafe Media & InMobi, trong số những người khác, sử dụng IEE với Hadoop.
Nếu bạn đăng ký Giấy trắng ngành http://support.infobright.com/Support/Resource-Library/Whitepapers/, bạn sẽ thấy chế độ xem thị trường hiện tại nơi bốn trường hợp sử dụng được đề xuất cho Hadoop được nêu. Nó được tác giả bởi Wayne Eckerson, Giám đốc Nghiên cứu, Nhóm Kiến trúc và Ứng dụng Kinh doanh, TechTarget, vào tháng 9 năm 2011.
1) Tạo lưu trữ trực tuyến.
Với Hadoop, các tổ chức không phải xóa hoặc chuyển dữ liệu sang bộ nhớ ngoại tuyến; họ có thể giữ cho nó trực tuyến vô thời hạn bằng cách thêm các máy chủ hàng hóa để đáp ứng các yêu cầu lưu trữ và xử lý. Hadoop trở thành một giải pháp thay thế chi phí thấp để đáp ứng các yêu cầu lưu trữ trực tuyến.
2) Nạp kho dữ liệu.
Các tổ chức cũng có thể sử dụng Hadoop để phân tích cú pháp, tích hợp và tổng hợp khối lượng lớn Web hoặc các loại dữ liệu khác, sau đó gửi nó đến kho dữ liệu, nơi người dùng bình thường và quyền lực có thể truy vấn và phân tích dữ liệu bằng các công cụ BI quen thuộc. Ở đây, Hadoop trở thành một công cụ ETL để xử lý khối lượng lớn dữ liệu Web trước khi nó hạ cánh trong kho dữ liệu của công ty.
3) Hỗ trợ phân tích.
Đám đông dữ liệu lớn (tức là, nhà phát triển Internet) xem Hadoop chủ yếu là một công cụ phân tích để chạy tính toán phân tích đối với khối lượng lớn dữ liệu. Để truy vấn Hadoop, các nhà phân tích hiện đang cần viết các chương trình bằng Java hoặc các ngôn ngữ khác và hiểu MapReduce, một khuôn khổ để viết các ứng dụng được phân phối (hoặc song song). Lợi thế ở đây là các nhà phân tích không bị hạn chế bởi SQL khi xây dựng các truy vấn. SQL không hỗ trợ nhiều loại phân tích, đặc biệt là những loại liên quan đến tính toán liên tiếp, vốn là phổ biến trong phân tích lưu lượng truy cập web. Điểm bất lợi là Hadoop được định hướng theo lô và không có lợi cho truy vấn lặp lại.
4) Chạy báo cáo. Tuy nhiên,
Định hướng hàng loạt của Hadoop phù hợp để thực hiện các báo cáo được lập lịch thường xuyên. Thay vì chạy các báo cáo chống lại dữ liệu tóm tắt, các tổ chức hiện có thể chạy chúng với dữ liệu thô, đảm bảo kết quả chính xác nhất.