Iso-8859-1 là tập hợp con đúng của utf-8?
Các nhân vật reportoire của tiêu chuẩn ISO-8859-1 (256 ký tự đầu tiên của Unicode) là một tập hợp con đúng đắn của UTF-8 (mỗi ký tự Unicode).
Tuy nhiên, characters U+0080 to U+00FF là được mã hóa khác nhau trong hai mã hóa.
- ISO-8859-1 gán cho mỗi của những nhân vật này một đơn byte từ
80
để FF
.
- UTF-8 mã hóa các ký tự giống như hai byte trình tự
C2 80
đến C3 BF
.
Còn iso-8859-n thì sao?
Đây là 15 mã hóa khác nhau chứa tổng cộng 614 ký tự riêng biệt. Một số các ký tự này xuất hiện trong nhiều "phần" của ISO 8859, và một số thì không. Bạn sẽ phải cụ thể hơn.
Tôi thấy câu hỏi của bạn được gắn thẻ ISO-8859-2. Các nhân vật có trong -2 mà không phải là trong -1 là:
Ă㥹ĆćČčĎďĐđĘęĚěĹ弾ŁłŃńŇňŐőŔŕŘřŚśŞşŠšŢţŤťŮůŰűŹźŻżŽžˇ˘˙˛˝
gì về windows-1252?
Windows-1252 giống như ISO-8859-1 ngoại trừ việc nó thay thế các ký tự điều khiển hiếm khi được sử dụng trong phạm vi 0x80-0x9F với các ký tự có thể in. Các nhân vật có trong cửa sổ-1252 nhưng không có trong tiêu chuẩn ISO-8859-1 là:
ŒœŠšŸŽžƒˆ˜–—‘’‚“”„†‡•…‰‹›€™
Vì vậy, bạn đang nói rằng repetoire của iso-8859-1 là một tập hợp con thích hợp của repetoire của utf-8 ? Tôi tin rằng. Những gì tôi không chắc chắn về là repetoire của utf-8 là tương đương với repetoire của unicode. Tôi nghĩ mục đích của utf-16/utf-32 là có thể mã hóa nhiều hơn/tất cả các ký tự unicode tương ứng. –
Ahh .. Tôi đã tìm kiếm nó. Vì UTF-8 có thể đại diện cho các ký tự dưới dạng nhiều byte, nó có thể biểu thị tất cả sự từ bỏ unicode. Điều này có ý nghĩa bây giờ. –