2017-09-26 39 views
7

Tôi đang sử dụng Google Data Flow để triển khai giải pháp lưu trữ dữ liệu ETL.Sự khác nhau giữa Google Cloud Dataflow và Google Cloud Dataproc là gì?

Nhìn vào cung cấp đám mây của Google, có vẻ như DataProc cũng có thể làm điều tương tự.

Dường như DataProc rẻ hơn một chút so với DataFlow.

Có ai biết ưu/nhược điểm của DataFlow trên DataProc

Tại sao Google cung cấp cả hai?

Trả lời

1

Cùng lý do tại sao Dataproc cung cấp cả Hadoop và Spark: đôi khi một mô hình lập trình phù hợp nhất cho công việc, đôi khi một mô hình khác. Tương tự như vậy, trong một số trường hợp, sự phù hợp nhất cho công việc là mô hình lập trình Apache Beam, được cung cấp bởi Dataflow.

Trong nhiều trường hợp, một sự cân nhắc lớn là một mã đã được viết dựa trên một khung công cụ cụ thể và chỉ muốn triển khai nó trên Google Cloud, vì vậy, ngay cả khi mô hình lập trình Beam vượt trội hơn Hadoop , ai đó có nhiều mã Hadoop vẫn có thể chọn Dataproc trong thời gian này, thay vì viết lại mã của họ trên Beam để chạy trên Dataflow.

Sự khác biệt giữa các mô hình lập trình Spark và Beam khá lớn và có rất nhiều trường hợp sử dụng, mỗi trường hợp có lợi thế lớn so với trường hợp khác. Xem https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison.

8

Có, Cloud Dataflow và Cloud Dataproc đều có thể được sử dụng để triển khai giải pháp lưu trữ dữ liệu ETL.

Tổng quan về lý do tại sao mỗi người trong số các sản phẩm này tồn tại có thể được tìm thấy trong Google Cloud Platform Big Data Solutions Articles

takeaways nhanh:

  • Mây Dataproc cung cấp cho bạn với một cụm Hadoop, trên GCP, và truy cập vào Hadoop- các công cụ hệ sinh thái (ví dụ: Apache Pig, Hive và Spark); điều này có sức hấp dẫn mạnh mẽ nếu bạn đã quen thuộc với các công cụ Hadoop và có các công việc Hadoop
  • Cloud Dataflow cung cấp cho bạn một nơi để chạy các công việc dựa trên Apache Beam, trên GCP và bạn không cần giải quyết các khía cạnh phổ biến của công việc đang chạy trên một cụm (ví dụ: Cân bằng công việc hoặc Chia tỷ lệ số công nhân cho một công việc; theo mặc định, điều này sẽ tự động được quản lý cho bạn và áp dụng cho cả hai đợt và phát trực tuyến) - điều này có thể tốn rất nhiều thời gian trên các hệ thống khác
    • Apache Chùm tia là một yếu tố quan trọng; Các công việc chùm tia được dự định có thể di chuyển trên "người chạy", bao gồm Cloud Dataflow và cho phép bạn tập trung vào tính toán logic của mình, chứ không phải cách hoạt động của "nhân viên" - So sánh, khi tạo tác vụ Spark, mã của bạn bị ràng buộc với Á hậu, Spark, và làm thế nào mà làm việc Á hậu
    • Mây Dataflow cũng cung cấp khả năng tạo việc làm dựa trên "mẫu", mà có thể giúp đơn giản hóa tác vụ thông thường mà sự khác biệt là giá trị tham số
Các vấn đề liên quan