2010-09-09 34 views

Trả lời

27

Các ký tự Hanzi/Kanji thường được sử dụng nằm trong khối "Ký hiệu hợp nhất CJK" giữa U + 4E00 và U + 9FFF và lấy 3 byte bằng UTF-8. (Các ký tự Hiragana và Katakana của Nhật Bản cũng có 3 byte.)

Tuy nhiên, cũng có một số ký tự rất hiếm khi được sử dụng trong khối "CJK Unified Ideographs Extension B" và "CJK Compatibility Ideographs Supplement". trong UTF-8.

Cũng lưu ý rằng văn bản tiếng Trung thường chứa các ký tự ASCII như các chữ số 0-9.

+0

+1 Ồ, dường như chúng tôi có người nói tiếng Trung Quốc về lưu lượng truy cập. Mát mẻ :-). – sleske

+2

Văn bản tiếng Nhật có nguồn gốc từ Shift-JIS cũng có khả năng chứa các ký tự không phải chữ Kanji, không phải ASCII khác để sắp xếp các chuỗi hai byte. Và sau đó chúng tôi sẽ sớm có biểu tượng cảm xúc để tranh luận, cũng nằm ngoài Mặt phẳng đa ngôn ngữ cơ bản và 4 byte ... – bobince

+2

@sleske: Không, tôi không * nói * tiếng Trung Quốc. Tôi đã thực hiện quá nhiều công việc với mã hóa ký tự. – dan04

2

Có, Kanji là U + 4e00 đến U + 9faf, UTF8 3 byte là U + 0800 đến U + FFFF.

Các vấn đề liên quan