2015-05-12 22 views
9

Sự khác nhau giữa UTF-32 và UCS-4 là gì? Không phải UTF-32 được coi là mã hóa có độ rộng cố định?Sự khác nhau giữa UTF-32 và UCS-4 là gì?

+1

Điều gì về [trang wikipedia] (https://en.wikipedia.org/wiki/UTF-32) không rõ ràng? Nếu có sự mơ hồ trên trang đó, sẽ rất hữu ích khi thảo luận về chúng. –

+0

Điều gì 'ghét'? Câu hỏi được trả lời hoàn toàn bởi trang Wikipedia, do đó, nó không phải là một bổ sung hữu ích cho trang web này. Nếu có điều gì đó trên trang đó không rõ ràng (và nhiều về Unicode là rắc rối), thì một câu hỏi chi tiết hơn - ví dụ: 'Lời giải thích này có vẻ ngụ ý X, nhưng phần khác này ngụ ý Y, mâu thuẫn; vậy độ phân giải là gì? ' - sẽ là một câu hỏi hữu ích và mang tính giáo dục. Một câu hỏi không hiển thị nghiên cứu, hoặc những cố gắng khác của người hỏi để tự trả lời, là ... ít hơn. –

Trả lời

8

UTF-32 đã bắt đầu dưới dạng tập con của UCS-4. Bây giờ nó giống hệt nhau ngoại trừ tiêu chuẩn UTF-32 có thêm ngữ nghĩa Unicode. Xem chi tiết về wikipedia:

Các tiêu chuẩn gốc ISO 10646 định nghĩa một hình thức mã hóa 31-bit gọi UCS-4, trong đó mỗi nhân vật mã hóa trong các nhân vật phổ Đặt (UCS) được đại diện bởi một 32 -giá trị mã thân thiện-bit trong không gian mã của các số nguyên trong khoảng 0 và hệ thập lục phân 7FFFFFFF.

Bởi vì chỉ có 17 máy bay đang thực sự được sử dụng, tất cả các mã điểm hiện tại là giữa và 0x10FFFF. UTF-32 là một tập con của UCS-4 chỉ sử dụng phạm vi này. Vì tài liệu và thủ tục của JTC1/SC2/WG2 quy định rằng tất cả các ký tự trong tương lai sẽ là ràng buộc với BMP hoặc 14 máy bay bổ sung đầu tiên, UTF-32 sẽ có thể đại diện cho tất cả các ký tự Unicode. Theo đó, UCS-4 và UTF-32 hiện giống hệt nhau ngoại trừ tiêu chuẩn UTF-32 có ngữ nghĩa Unicode bổ sung.

Tuy nhiên, tôi không chắc chắn chính xác, ý nghĩa của phương tiện additional Unicode semantics. Có thể ai đó có thể cung cấp câu trả lời tốt hơn.

+8

Có nghĩa gì về "ngữ nghĩa Unicode bổ sung"? –

+0

Tôi personaly không biết @ 一 二三. Có lẽ chúng ta cần một câu trả lời tốt hơn, trong đó có thêm thông tin về điều này. –

+0

Bài viết trên Wikipedia nói "[cần làm rõ]". –

5

Các Unicode Standard Version 8.0, Appendix C trạng thái:

UCS-4 là viết tắt của “Character Set Phổ mã trong 4 octet.” Đó là tại xử lý đơn giản là một từ đồng nghĩa với UTF-32, và được coi là hình thức kinh điển để đại diện cho các nhân vật trong 10646.

Các vấn đề liên quan