Có thể ai đó vui lòng xác nhận rằng tất cả các ký tự Kanji bằng tiếng Trung Quốc dài 3 byte trong UTF-8?Có phải tất cả các ký tự Kanji trong UTF-8 dài 3 byte không?
17
A
Trả lời
27
Các ký tự Hanzi/Kanji thường được sử dụng nằm trong khối "Ký hiệu hợp nhất CJK" giữa U + 4E00 và U + 9FFF và lấy 3 byte bằng UTF-8. (Các ký tự Hiragana và Katakana của Nhật Bản cũng có 3 byte.)
Tuy nhiên, cũng có một số ký tự rất hiếm khi được sử dụng trong khối "CJK Unified Ideographs Extension B" và "CJK Compatibility Ideographs Supplement". trong UTF-8.
Cũng lưu ý rằng văn bản tiếng Trung thường chứa các ký tự ASCII như các chữ số 0-9.
2
Có, Kanji là U + 4e00 đến U + 9faf, UTF8 3 byte là U + 0800 đến U + FFFF.
Các vấn đề liên quan
- 1. Nhận độ dài QString theo byte (không phải ký tự)
- 2. Regex để loại bỏ các ký tự không phải chữ và số từ các chuỗi UTF8
- 3. Xóa tất cả các ký tự không phải chữ cái từ một mảng String trong java
- 4. Xóa tất cả các ký tự không phải số từ chuỗi trong Python
- 5. Có phải mb_ * cần thiết để thay thế các ký tự một byte từ một chuỗi nhiều byte không?
- 6. có một url chấp nhận tất cả các ký tự
- 7. Tìm tất cả 'nhiều hơn hoặc ít hơn' ký tự không phải là thẻ trong xml
- 8. Cách đơn giản để xóa tất cả các ký tự không phải từ
- 9. Xóa tất cả các ký tự không phải chữ và số bằng cách sử dụng preg_replace
- 10. Xóa tất cả các ký tự không phải ASCII khỏi chuỗi
- 11. Nhận tất cả các kết hợp có thể có của các ký tự trong một mảng
- 12. Loại bỏ tất cả các ký tự khoảng trắng trừ ""
- 13. Xóa tất cả các ký tự không phải chữ cái, không phải chữ số từ một chuỗi?
- 14. T-SQL bỏ tất cả các ký tự không phải là alpha và không phải là số
- 15. Cách xác định xem tất cả các ký tự trong một chuỗi có bằng nhau không
- 16. Tôi có phải hủy đăng ký tất cả các trình xử lý sự kiện không?
- 17. Dải ký tự không phải chữ và số từ tiếng Ả Rập UTF8 + Chuỗi tiếng Anh
- 18. Chuyển đổi utf8 sang latin1 bằng PHP. Tất cả các ký tự trên 255 chuyển sang tham chiếu char
- 19. Chuỗi con hoặc phương thức CharacterAt cho chuỗi UTF8 có 2+ byte trong JAVA
- 20. Làm thế nào để xóa tất cả các ký tự sau một ký tự trong chuỗi?
- 21. Có phải tất cả các mảng char tự động bị hủy không?
- 22. Xóa các ký tự utf8 không in được trừ các controlchars từ String
- 23. Python regex nào khớp với tất cả các ký tự bảng chữ cái nhưng không có số? [unicode aware]
- 24. SQL: cách lấy tất cả các ký tự riêng biệt trong một cột, trên tất cả các hàng
- 25. Tìm tất cả các chuỗi con liên tiếp có độ dài n theo trình tự
- 26. Regex cho tất cả các ký tự INFINTABLE
- 27. Codec Python to_excel 'utf8' codec không thể giải mã byte
- 28. Thay thế tất cả các ký tự khoảng trắng
- 29. MySQL nhận được tất cả các ký tự trước ký tự cụ thể
- 30. preg_replace để loại bỏ các ký tự không in dường như xóa tất cả các ký tự ngoài cũng như
+1 Ồ, dường như chúng tôi có người nói tiếng Trung Quốc về lưu lượng truy cập. Mát mẻ :-). – sleske
Văn bản tiếng Nhật có nguồn gốc từ Shift-JIS cũng có khả năng chứa các ký tự không phải chữ Kanji, không phải ASCII khác để sắp xếp các chuỗi hai byte. Và sau đó chúng tôi sẽ sớm có biểu tượng cảm xúc để tranh luận, cũng nằm ngoài Mặt phẳng đa ngôn ngữ cơ bản và 4 byte ... – bobince
@sleske: Không, tôi không * nói * tiếng Trung Quốc. Tôi đã thực hiện quá nhiều công việc với mã hóa ký tự. – dan04