Có ai biết nếu có một cách đơn giản để phát hiện mã hóa bộ ký tự trong Java? Dường như với tôi rằng một số chương trình có khả năng phát hiện ký tự nào đã đặt một đoạn dữ liệu nhất định sử dụng, hoặc ít nhất là thực hiện một phép tính aproximation.Cách phát hiện mã hóa bộ ký tự nào trong Java?
Tôi cho rằng cơ chế cơ bản sẽ phải giải mã dữ liệu trong mỗi bộ ký tự và chọn bất kỳ cái nào có các ký tự không xác định ít nhất theo sau là bộ ký tự nào phổ biến hơn để ngắt liên kết.
Bất kỳ ý tưởng nào?
Chúng ta đang nói về đầu vào nào? Mảng byte (nhị phân) hoặc mảng char (String)? Bạn muốn phân biệt cái nào sau đó? Nó có thể chỉ được thực hiện cho các bảng mã Unicode (với các dấu thứ tự byte), nhưng không phải là độ tin cậy cho những người khác. – BalusC
Điều này có thể phức tạp. Tại trang web này pfarland đang sử dụng một số chẩn đoán: http://forums.sun.com/thread.jspa?threadID=279203#3 – mre
Các chủ đề liên quan: http://stackoverflow.com/questions/499010/java-how-to -determine-the-correct-charset-mã hóa-of-a-stream và http://stackoverflow.com/questions/1888189/java-readers-and-encodings – BalusC