Tôi đang gặp một thời gian khó khăn thực hiện một cái gì đó có vẻ như nó nên rất dễ dàng:Performing tra cứu/dịch trong một Spark RDD hoặc dữ liệu khung sử dụng một RDD/df
Mục tiêu của tôi là làm cho bản dịch trong một RDD/dataframe bằng RDD/dataframe thứ hai dưới dạng bảng tra cứu hoặc từ điển dịch. Tôi muốn thực hiện các bản dịch này trong nhiều cột.
Cách dễ nhất để giải thích sự cố là ví dụ. Hãy nói rằng tôi có như là đầu vào của tôi hai RDDs sau:
Route SourceCityID DestinationCityID
A 1 2
B 1 3
C 2 1
và
CityID CityName
1 London
2 Paris
3 Tokyo
đầu ra của tôi mong muốn RDD là:
Route SourceCity DestinationCity
A London Paris
B London Tokyo
C Paris London
Làm thế nào tôi nên đi về nó sản xuất nó?
Đây là một vấn đề dễ dàng trong SQL, nhưng tôi không biết các giải pháp rõ ràng với RDD trong Spark. Các phương thức tham gia, cogroup, v.v. dường như không phù hợp với các RDD nhiều cột và không cho phép chỉ định cột nào sẽ tham gia.
Bất kỳ ý tưởng nào? SQLContext có phải là câu trả lời không?
Sử dụng Dataframe và SparkSQL sẽ giúp bạn những gì bạn đang tìm kiếm. Về cơ bản nó là sql với một cú pháp khác. – eliasah
Kích thước của bảng/RDD là gì? Là CityID/CityName RDD nhiều lần nhỏ hơn RDD Route? Trong trường hợp đó tôi sẽ thu thập các kết quả của RDD như một bản đồ và phát sóng nó, để nó có thể là một tra cứu cục bộ trên mọi Công nhân. –