Tôi muốn sử dụng thư viện mllib.recommendation
của Spark để xây dựng một hệ thống giới thiệu mẫu thử nghiệm. Tuy nhiên, định dạng của dữ liệu người dùng Tôi có một cái gì đó của định dạng sau:Làm thế nào để sử dụng mllib.recommendation nếu id người dùng là chuỗi thay vì các số nguyên tiếp giáp?
AB123XY45678
CD234WZ12345
EF345OOO1234
GH456XY98765
....
Nếu tôi muốn sử dụng thư viện mllib.recommendation
, theo API của lớp Rating
, id người dùng phải số nguyên (cũng phải tiếp giáp?)
Dường như một số loại chuyển đổi giữa id người dùng thực và các loại số được sử dụng bởi Spark phải được thực hiện. Nhưng làm thế nào tôi nên làm điều này?
Điều này không chỉ định một chỉ mục duy nhất cho từng xếp hạng, chứ không phải từng người dùng? Tôi không nghĩ rằng nó sẽ hoạt động nếu người dùng có nhiều xếp hạng. – PBJ
@PBJ, vâng, bạn nói đúng, tôi đã cập nhật mã trong câu trả lời –
phương pháp 'tra cứu' không phải là mã Spark hợp lệ. Nó sẽ biên dịch nhưng thổi vào thời gian chạy. Bạn có thể sửa chữa (loại bỏ) nó? – zero323