tôi đang cố gắng để cư đối tượng phim, nhưng khi phân tích cú pháp thông qua các tập tin u.item
tôi nhận được lỗi này:của Ruby 'chia': không hợp lệ byte chuỗi trong UTF-8 (ArgumentError)
`split': invalid byte sequence in UTF-8 (ArgumentError)
File.open("Data/u.item", "r") do |infile|
while line = infile.gets
line = line.split("|")
end
end
Các lỗi xảy ra chỉ khi cố gắng chia các dòng với dấu chấm câu quốc tế ưa thích.
Đây là một mẫu
543|Misérables, Les (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Mis%E9rables%2C%20Les%20%281995%29|0|0|0|0|0|0|0|0|1|0|0|0|1|0|0|0|0|0|0
Có một công việc xung quanh ??
gì 'od -c' nói về dòng trong câu hỏi? –
Nó hoạt động cho tôi với kho văn bản như được đăng. @ IgnacioVazquez-Abrams có lẽ đúng: bạn cần sử dụng trình chỉnh sửa hex để xem liệu bạn có các ký tự ẩn trong tệp dữ liệu của mình hay không. –