Tôi đang cố gắng tìm một tài nguyên có thể được sử dụng để kết nối Ngôn ngữ (hoặc có thể là Tập lệnh) với các khối ký tự Unicode. Một tài nguyên như vậy sẽ được sử dụng để tra cứu các câu hỏi như "Unicode Blocks nào được sử dụng bằng tiếng Pháp?" hoặc "Ngôn ngữ nào sử dụng khối từ 0A80-0AFF (http://unicodinator.com/#Block-Gujarati)?" Bạn có biết một nguồn tài nguyên như vậy không?Làm cách nào để liên kết các khối Unicode thành Ngôn ngữ/Tập lệnh?
Tôi có thể mong đợi có thể tìm thấy thông tin này dễ dàng tại unicode.org. Tôi đã nhanh chóng có thể tìm thấy một bảng tuyệt vời có liên quan Mã quốc gia cho các ngôn ngữ (http://unicode.org/repos/cldr-tmp/trunk/diff/supplemental/territory_language_information.html). Nhưng tôi đã dành khá nhiều thời gian để không có may mắn khi tìm kiếm thứ gì đó liên quan đến khối Unicode với ngôn ngữ. Có thể tôi có vấn đề về thuật ngữ ngăn tôi kết nối các dấu chấm ở đây ...
Tôi không cầu kỳ về chính xác ý nghĩa của "ngôn ngữ" (mã Java Locale hoặc mã ISO 639 hoặc bất kỳ thứ gì) trong trường hợp này . Tôi cũng hiểu rằng có thể không có câu trả lời chính xác vì, ví dụ, một tài liệu tiếng Ả Rập có thể chứa tiếng Latinh và văn bản khác ngoài các ký tự từ các khối tiếng Ả Rập (http://unicodinator.com/#Block-Arabic, http://unicodinator.com/#Block-Arabic_Supplement). Nhưng chắc chắn phải có một số bảng nói rằng "những ngôn ngữ này đi với những khối" ... Tôi cũng không cầu kỳ về định dạng (XML, CSV, bất cứ điều gì), tôi có thể dễ dàng chuyển đổi thành dữ liệu tôi có thể sử dụng cho ứng dụng của mình . Và một lần nữa, tôi nhận ra rằng tài liệu tham khảo có thể sẽ kết nối Scripts tới Chặn, chứ không phải Ngôn ngữ (mặc dù Tập lệnh có thể được ánh xạ tới Ngôn ngữ).
Tôi nhận ra đây sẽ là bảng nhiều người (vì nhiều ngôn ngữ sử dụng các ký tự từ nhiều khối và nhiều khối được nhiều ngôn ngữ sử dụng); Tôi nhận ra điều này không thể được trả lời chính xác vì các điểm mã Unicode không phải là ngôn ngữ cụ thể - tuy nhiên, không có câu hỏi về "ngôn ngữ nào có ở quốc gia này" (câu trả lời có thể là "hầu hết trong số họ" cho hầu hết các quốc gia), như thế này (http://unicode.org/repos/cldr-tmp/trunk/diff/supplemental/territory_language_information.html) vẫn có thể tạo, có ý nghĩa và hữu ích.
Là lý do tại sao Tôi muốn một điều như vậy: Tôi muốn nâng cao http://unicodinator.com với bản đồ nhiệt toàn cầu cho các khối mã và danh sách ngôn ngữ; Tôi cũng có một khái niệm trò chơi mà tôi đang sửa đổi. Ngoài ra, có lẽ có nhiều cách sử dụng khác mà người khác có thể có cho việc này (tạo phông chữ? Heuristic, nhanh chóng, phát hiện ngôn ngữ tốt nhất đoán bây giờ API Google Translate sẽ biến mất? Dự án nghiên cứu?).
gì về khối có thể thuộc về nhiều ngôn ngữ? –
yes @Ignacio, chắc chắn sẽ có nhiều mối quan hệ. – jlarson
Tôi không nghĩ rằng điều này là đáng trả lời. Xem xét các từ mượn từ các ngôn ngữ khác. Tiếng Anh thường không có dấu, nhưng bạn sẽ tìm thấy "sơ yếu lý lịch" trong bất kỳ từ điển tiếng Anh nào. –