Có phải tất cả các ký tự Kanji trong UTF-8 dài 3 byte không?

Có thể ai đó vui lòng xác nhận rằng tất cả các ký tự Kanji bằng tiếng Trung Quốc dài 3 byte trong UTF-8?Có phải tất cả các ký tự Kanji trong UTF-8 dài 3 byte không?

Nguồn

2010-09-09 TopCoder

Các ký tự Hanzi/Kanji thường được sử dụng nằm trong khối "Ký hiệu hợp nhất CJK" giữa U + 4E00 và U + 9FFF và lấy 3 byte bằng UTF-8. (Các ký tự Hiragana và Katakana của Nhật Bản cũng có 3 byte.)

Tuy nhiên, cũng có một số ký tự rất hiếm khi được sử dụng trong khối "CJK Unified Ideographs Extension B" và "CJK Compatibility Ideographs Supplement". trong UTF-8.

Cũng lưu ý rằng văn bản tiếng Trung thường chứa các ký tự ASCII như các chữ số 0-9.

Nguồn

2010-09-09 23:50:51 dan04

+1 Ồ, dường như chúng tôi có người nói tiếng Trung Quốc về lưu lượng truy cập. Mát mẻ :-). – sleske

Văn bản tiếng Nhật có nguồn gốc từ Shift-JIS cũng có khả năng chứa các ký tự không phải chữ Kanji, không phải ASCII khác để sắp xếp các chuỗi hai byte. Và sau đó chúng tôi sẽ sớm có biểu tượng cảm xúc để tranh luận, cũng nằm ngoài Mặt phẳng đa ngôn ngữ cơ bản và 4 byte ... – bobince

@sleske: Không, tôi không * nói * tiếng Trung Quốc. Tôi đã thực hiện quá nhiều công việc với mã hóa ký tự. – dan04

Có, Kanji là U + 4e00 đến U + 9faf, UTF8 3 byte là U + 0800 đến U + FFFF.

Nguồn

2010-09-09 17:10:14 gawi

Có phải tất cả các ký tự Kanji trong UTF-8 dài 3 byte không?

Trả lời

Các vấn đề liên quan