2012-04-05 49 views
5
  • Iso-8859-1 là tập hợp con đúng của utf-8?
  • Điều gì về iso-8859-n?
  • Còn windows-1252 thì sao?

Nếu câu trả lời là không có bất kỳ điều nào ở trên, các ký tự rời rạc là gì? Tôi đang thử nghiệm một số logic phát hiện bộ ký tự và muốn viết kiểm tra để xác minh việc phát hiện đang hoạt động đúng.Ký tự Đặt các ký tự đặc biệt

Trả lời

8

Iso-8859-1 là tập hợp con đúng của utf-8?

Các nhân vật reportoire của tiêu chuẩn ISO-8859-1 (256 ký tự đầu tiên của Unicode) là một tập hợp con đúng đắn của UTF-8 (mỗi ký tự Unicode).

Tuy nhiên, characters U+0080 to U+00FFđược mã hóa khác nhau trong hai mã hóa.

  • ISO-8859-1 gán cho mỗi của những nhân vật này một đơn byte từ 80 để FF.
  • UTF-8 mã hóa các ký tự giống như hai byte trình tự C2 80 đến C3 BF.

Còn iso-8859-n thì sao?

Đây là 15 mã hóa khác nhau chứa tổng cộng 614 ký tự riêng biệt. Một số các ký tự này xuất hiện trong nhiều "phần" của ISO 8859, và một số thì không. Bạn sẽ phải cụ thể hơn.

Tôi thấy câu hỏi của bạn được gắn thẻ ISO-8859-2. Các nhân vật có trong -2 mà không phải là trong -1 là:

Ă㥹ĆćČčĎďĐđĘęĚěĹ弾ŁłŃńŇňŐőŔŕŘřŚśŞşŠšŢţŤťŮůŰűŹźŻżŽžˇ˘˙˛˝

gì về windows-1252?

Windows-1252 giống như ISO-8859-1 ngoại trừ việc nó thay thế các ký tự điều khiển hiếm khi được sử dụng trong phạm vi 0x80-0x9F với các ký tự có thể in. Các nhân vật có trong cửa sổ-1252 nhưng không có trong tiêu chuẩn ISO-8859-1 là:

ŒœŠšŸŽžƒˆ˜–—‘’‚“”„†‡•…‰‹›€™

+0

Vì vậy, bạn đang nói rằng repetoire của iso-8859-1 là một tập hợp con thích hợp của repetoire của utf-8 ? Tôi tin rằng. Những gì tôi không chắc chắn về là repetoire của utf-8 là tương đương với repetoire của unicode. Tôi nghĩ mục đích của utf-16/utf-32 là có thể mã hóa nhiều hơn/tất cả các ký tự unicode tương ứng. –

+1

Ahh .. Tôi đã tìm kiếm nó. Vì UTF-8 có thể đại diện cho các ký tự dưới dạng nhiều byte, nó có thể biểu thị tất cả sự từ bỏ unicode. Điều này có ý nghĩa bây giờ. –

0

Unicode là bộ siêu lớn của tất cả các bộ ký tự này và có khá nhiều ký tự được thiết lập ở đó. Bạn có thể tìm danh sách ánh xạ của tất cả các bộ ký tự này tới các điểm mã Unicode tại đây: http://unicode.org/Public/MAPPINGS/.

Các vấn đề liên quan