1) Chúng tôi đang tiêu thụ từ kafka sử dụng luồng có cấu trúc và ghi dữ liệu đã xử lý được đặt thành s3. Chúng tôi cũng muốn ghi dữ liệu đã xử lý vào kafka di chuyển về phía trước, có thể thực hiện điều đó từ cùng một truy vấn truyền trực tuyến không? Trong bản ghi, tôi thấy đầu ra tiến trình truy vấn trực tuyến và tôi có một khoảng thời gian mẫu JSON từ nhật ký, một số có thể cung cấp rõ ràng hơn về sự khác biệt giữa addBatch và getBatch?Spark Cấu trúc phát trực tuyến: nhiều bồn
3) TriggerExecution - đã đến lúc xử lý dữ liệu được tìm nạp và ghi vào bồn rửa chưa?
"durationMs" : {
"addBatch" : 2263426,
"getBatch" : 12,
"getOffset" : 273,
"queryPlanning" : 13,
"triggerExecution" : 2264288,
"walCommit" : 552
},
liên quan aravias
Cảm ơn phản hồi, bạn có thể làm rõ điều sau đây - khi viết Tập dữ liệu được tạo từ chủ đề nguồn đến cả dấu kiểm S3 và KAFKA phải được chỉ định riêng cho từng bồn, hy vọng rằng dữ liệu sẽ được đọc hai lần từ chủ đề nguồn ngay cả khi sử dụng cùng một Số liệu được tạo từ nguồn đó để ghi vào hai bộ khuếch tán khác nhau này? – user2221654
Nếu bạn có hai bồn rửa, điều đó có nghĩa là bạn có hai truy vấn. Mỗi truy vấn có người tiêu dùng Kafka riêng và lấy dữ liệu từ Kafka một cách độc lập. – zsxwing