Tôi tìm thấy số này question cho phép tôi kiểm tra xem chuỗi có chứa ký tự tiếng Trung hay không. Tôi không chắc chắn nếu các dãy unicode là chính xác nhưng họ dường như trở về sai cho Nhật Bản và Hàn Quốc và đúng cho Trung Quốc.Phát hiện nếu ký tự được đơn giản hóa hoặc ký tự Trung Quốc truyền thống
Những gì nó không làm là cho biết nhân vật đó là tiếng Trung Quốc truyền thống hay đơn giản. Làm thế nào bạn sẽ đi về việc tìm kiếm này ra?
cập nhật
Q: Làm thế nào tôi có thể nhận ra từ giá trị 32 bit của một ký tự Unicode nếu điều này là một nhân vật Trung Quốc, Hàn Quốc hay Nhật Bản?
http://unicode.org/faq/han_cjk.html
Lập luận của họ rằng các nhân vật bất kể hình dạng của chúng có cùng ý nghĩa và do đó cần được đại diện bởi các mã tương tự. Vâng, nó không vô nghĩa đối với tôi bởi vì tôi đang phân tích các nhân vật riêng lẻ không hoạt động với giải pháp của họ:
Một giải pháp tốt hơn là xem xét toàn bộ văn bản: nếu có số lượng hợp lý, đó là có lẽ là người Nhật, và nếu có một số lượng công bằng của hangul, nó có thể là tiếng Hàn.
trang mã giúp phân biệt? Có vẻ như tiếng Trung giản thể là CP 936 và Truyền thống là CP 950, ít nhất là trong thế giới Microsoft. Có lẽ bắt đầu tại http://www.i18nguy.com/unicode/codepages.html cho các mã MS và IBM. – rajah9
Tôi đã tìm kiếm nhanh trên google và tìm thấy http://unicode.org/faq/han_cjk.html Tôi đã tìm thấy một số câu hỏi thú vị và họ cũng thảo luận về các nhân vật truyền thống trong đó. Hy vọng nó giúp! – Shaded
Câu hỏi thường gặp được liên kết của Shaded dường như trả lời chính xác câu hỏi của bạn. Như ví dụ trong ghi chú liên kết, bạn sẽ xác định xem "trò chuyện" có phải là tiếng Anh hoặc tiếng Pháp không? Nếu bạn không nghĩ rằng câu trả lời của bạn là ở đó, bạn có thể muốn mở rộng câu hỏi của bạn một chút. – Thanatos