Giả sử tôi có một tab tập tin phân chứa dữ liệu hoạt động người dùng được định dạng như thế này:Hadoop - composit chính
timestamp user_id page_id action_id
Tôi muốn viết một công việc hadoop tính các hành động người dùng trên mỗi trang, vì vậy các tập tin đầu ra nên nhìn như thế này:
user_id page_id number_of_actions
Tôi cần một cái gì đó giống như khóa tổng hợp ở đây - nó sẽ chứa user_id và page_id. Có cách nào chung để làm điều này với hadoop? Tôi không thể tìm thấy bất cứ điều gì hữu ích. Cho đến giờ tôi đang phát ra chìa khóa như thế này trong bản đồ:
context.write(new Text(user_id + "\t" + page_id), one);
Nó hoạt động, nhưng tôi cảm thấy đó không phải là giải pháp tốt nhất.
ComparisionChain thực sự dễ dàng cho trường hợp sử dụng này. Cảm ơn –