Tôi đang cố gắng triển khai Kiến trúc Lambda bằng các công cụ sau: Apache Kafka để nhận tất cả các điểm dữ liệu, Spark cho xử lý hàng loạt (Big Data), Spark Streaming cho thời gian thực (Fast Data) và Cassandra để lưu trữ kết quả.Cấu trúc Lambda với Apache Spark
Ngoài ra, tất cả các datapoints tôi nhận được có liên quan đến phiên người dùng, và do đó, đối với việc xử lý hàng loạt, tôi chỉ quan tâm xử lý các điểm dữ liệu sau khi phiên kết thúc. Vì vậy, vì tôi đang sử dụng Kafka, cách duy nhất để giải quyết vấn đề này (giả sử rằng tất cả các điểm dữ liệu được lưu trữ trong cùng một chủ đề) là cho lô tải tất cả các thư trong chủ đề và sau đó bỏ qua các thông báo tương ứng với các phiên chưa hoàn thành.
Vì vậy, những gì tôi muốn hỏi là:
- Đây có phải là một cách tiếp cận tốt để thực hiện các kiến trúc Lambda? Hoặc nên sử dụng Haddop và Storm thay thế? (Tôi không thể tìm thấy thông tin về những người sử dụng Kafka và Apache Spark để xử lý theo lô, Bản đồ Giảm)
- Có cách nào tốt hơn để giải quyết vấn đề phiên người dùng không?
Cảm ơn.