Spark hiện có hai thư viện học máy - Spark MLlib và Spark ML. Họ làm phần nào chồng lên nhau trong những gì được thực hiện, nhưng như tôi hiểu (như một người mới cho toàn bộ hệ sinh thái Spark) Spark ML là con đường để đi và MLlib vẫn còn chủ yếu là cho khả năng tương thích ngược.PCA trong Spark MLlib và Spark ML
Câu hỏi của tôi rất cụ thể và có liên quan đến PCA. Trong thực hiện MLlib có vẻ như có giới hạn về số lượng cột
spark.mllib hỗ trợ PCA cho ma trận cao và gầy được lưu trữ ở định dạng hàng và bất kỳ Vectors nào.
Ngoài ra, nếu bạn nhìn vào các ví dụ mã Java cũng có này
Số cột này phải là nhỏ, ví dụ như, ít hơn 1000.
Mặt khác , nếu bạn xem tài liệu ML, không có giới hạn nào được đề cập.
Vì vậy, câu hỏi của tôi là - hiện giới hạn này cũng tồn tại trong Spark ML? Và nếu có, tại sao giới hạn và có bất kỳ giải pháp nào để có thể sử dụng việc triển khai này ngay cả khi số lượng cột lớn không?
Câu hỏi thú vị. Tôi đã thấy nhiều mâu thuẫn khác trong tài liệu mllib. – Rob