Sự khác biệt giữa đợt phát sóng nhỏ so với thời gian thực truyền trực tuyến trong thực tế (không phải lý thuyết) là gì? Về lý thuyết, tôi hiểu lô hàng nhỏ là thứ mà lô trong khung thời gian nhất định trong khi thời gian thực trực tuyến giống như làm dữ liệu đến nhưng câu hỏi lớn nhất của tôi là tại sao không có lô nhỏ với khung thời gian epsilon (nói một phần nghìn giây) hoặc tôi muốn hiểu lý do tại sao người ta sẽ là một giải pháp hiệu quả hơn là giải pháp khác?Sự khác nhau giữa đợt phát sóng nhỏ so với thời gian thực truyền trực tuyến trong thực tế (không phải lý thuyết) là gì?
Gần đây tôi đã xem một ví dụ trong đó hàng loạt nhỏ (Apache Spark) được sử dụng để phát hiện Gian lận và phát trực tuyến thời gian thực (Apache Flink) được sử dụng để Ngăn chặn gian lận. Một người nào đó cũng nhận xét rằng các lô nhỏ sẽ không phải là giải pháp hiệu quả để ngăn chặn gian lận (vì mục đích là ngăn chặn giao dịch xảy ra khi nó xảy ra) Bây giờ tôi tự hỏi tại sao điều này không hiệu quả với lô hàng mini (Spark)? Tại sao nó không hiệu quả để chạy hàng loạt mini với độ trễ 1 mili giây? Ghép là một kỹ thuật được sử dụng ở khắp mọi nơi bao gồm cả hệ điều hành và ngăn xếp TCP/IP hạt nhân, nơi dữ liệu vào đĩa hoặc mạng thực sự được đệm nên yếu tố thuyết phục ở đây để nói cái nào hiệu quả hơn các yếu tố khác?
cảm ơn rất nhiều câu trả lời sao cho Apache Flink hoạt động tốt hơn so với việc lên kế hoạch cho công việc hàng loạt phân phối mỗi mili giây trong trường hợp này? bộ đệm Apache Flink ở tất cả? – user1870400
Flink lên lịch một công việc phát trực tuyến chỉ một lần và liên tục các bản ghi đường ống thông qua các toán tử của nó. Flink lô hồ sơ để gửi dữ liệu qua mạng để cải thiện hiệu quả mạng. Điều này hoạt động bằng cách đặt các bản ghi vào một bộ đệm (mặc định 32kb) và vận chuyển bộ đệm này khi nó đã đầy. Ngoài ra còn có một thời gian chờ để gửi bộ đệm trong trường hợp dòng không phải là "nhanh" đủ. Kỹ thuật này giới hạn độ trễ tối đa. –
Nếu nói 32Kb không đạt được (nói rằng không có đủ số lượng tin nhắn) khoảng thời gian chờ là gì? và nó có thể cấu hình được không?Tôi cho rằng một công cụ lên lịch có thể đưa ra các quyết định thông minh về nơi để lên lịch để tăng tính song song và thông lượng trên các máy nhưng nếu Apache Flink chỉ lên lịch một lần thì tôi tự hỏi làm thế nào nó có thể phân phối tải trên máy hoặc ở thời gian chạy của công việc? – user1870400