Làm cách nào tôi có thể lấy một mảng tia lửa, và chia thành hai lần ngẫu nhiên để mỗi rdd sẽ bao gồm một phần dữ liệu (cho phép nói 97% và 3 %).Spark - scala: trộn RDD/chia RDD thành hai phần ngẫu nhiên ngẫu nhiên
Tôi nghĩ để shuffle danh sách và sau đó shuffledList.take((0.97*rddList.count).toInt)
Nhưng làm thế nào tôi có thể shuffle RDD?
Hoặc có cách nào tốt hơn để tách danh sách không?
Tất cả các mặt hàng độc đáo Chỉ cần tự hỏi nếu bạn có thể sử dụng 'takeSample (tức là không có bản sao?)() 'và sau đó lọc mẫu ra khỏi danh sách gốc. – DNA
Có thể trùng lặp, nhưng tại sao nó lại quan trọng, bạn sẽ có thể làm gì nếu chúng là duy nhất? –
OK, tôi không nghĩ phương pháp takeSample sẽ hoạt động với các bản sao. – DNA