Tôi đang tham gia một số DataFrames với nhau trong Spark và tôi tiếp tục nhận được lỗi sau:Spark 2.0.0 Lỗi: PartitioningCollection yêu cầu tất cả các partitionings của mình có numPartitions cùng
PartitioningCollection requires all of its partitionings have the same numPartitions.
Nó dường như xảy ra sau khi tôi tham gia hai DataFrames với nhau mà mỗi dường như khá hợp lý trên của riêng mình, nhưng sau khi gia nhập họ, nếu tôi cố gắng để có được một hàng từ DataFrame tham gia, tôi nhận được lỗi này. Tôi thực sự chỉ cố gắng hiểu tại sao lỗi này có thể xuất hiện hoặc ý nghĩa đằng sau nó là gì vì tôi không thể tìm thấy bất kỳ tài liệu nào về nó.
Kết quả gọi sau trong ngoại lệ này:
val resultDataframe = dataFrame1
.join(dataFrame2,
$"first_column" === $"second_column").take(2)
nhưng tôi chắc chắn có thể gọi
dataFrame1.take(2)
và
dataFrame2.take(2)
Tôi cũng đã cố gắng repartitioning DataFrames
, sử dụng Dataset.repartition(numPartitions)
hoặc Dataset.coalesce(numParitions)
trên dataFrame1
và dataFrame2
trước khi tham gia và trên resultDataFrame
sau khi tham gia, nhưng dường như không có ảnh hưởng đến lỗi. Tôi đã không thể tìm thấy tài liệu tham khảo cho các cá nhân khác nhận được lỗi sau khi một số googling cursory ...
Cảm ơn bạn đã chứng minh sự hợp nhất và hy vọng là một giải pháp hữu ích, được thừa nhận rõ ràng.Tôi sẽ cố gắng này ra, nhưng tôi nghĩ rằng có một số khả năng rằng chúng tôi có thể có một báo cáo lỗi trên tay của chúng tôi nếu giải pháp có vẻ ra khỏi nắm bắt stackoverflow cho lâu hơn một chút. –
Cũng lưu ý rằng trên phiên bản 1.6.x cùng một mã (chặn sự khác biệt rất nhỏ) hoạt động như dự định, không bị lỗi, do đó, nó có vẻ giống như một lỗi đối với tôi, quá. –
Giải pháp tạm thời của bạn đã giải quyết được vấn đề! Tôi ngần ngại đánh dấu nó như là câu trả lời, nhưng trừ khi không có ai khác trả lời khác và chúng tôi quyết định đi đến JIRA tia lửa, sau đó có thể là tốt, nhưng cảm ơn. –