Tôi hiểu rằng partitionBy
phân vùng chức năng dữ liệu của tôi. Nếu tôi sử dụng rdd.partitionBy(100)
, nó sẽ phân vùng dữ liệu của tôi bằng cách nhập vào 100 phần. tức là dữ liệu được liên kết với các khóa tương tự sẽ được nhóm lại với nhaupyspark partioning data bằng cách sử dụng partitionby
- Hiểu biết của tôi có chính xác không?
- Bạn nên có số lượng phân vùng bằng số lượng lõi khả dụng? Điều đó có làm cho việc xử lý hiệu quả hơn không?
- nếu dữ liệu của tôi không ở định dạng giá trị, khóa. Tôi vẫn có thể sử dụng chức năng này?
- cho phép nói dữ liệu của tôi là serial_number_of_student, student_name. Trong trường hợp này tôi có thể phân vùng dữ liệu của mình theo student_name thay vì số không?
Bạn nên đánh vần kiểm tra câu trả lời này, nó chứa rất nhiều lỗi chính tả. –