Tôi đang phát triển một heuristic để phát hiện ngôn ngữ tự động và muốn tìm hiểu xem các thư được đưa ra có dấu phụ (như "Đàäèî Êóëüòóðà" - tất cả các chữ cái có dấu phụ). Nó sẽ là tốt nhất nếu tôi cũng có thể nhận được loại dấu phụ, nếu có thể.Cách kiểm tra xem ký tự Unicode có dấu phụ trong .Net?
Tôi duyệt qua UnicodeCategory
enum nhưng không tìm thấy bất kỳ thứ gì có thể giúp tôi ở đây.
Ký tự chữ cái (Ð) không có dấu phụ. Trong Unicode, nó là một nhân vật cơ bản; đột quỵ không được coi là dấu phụ. Do đó, bạn có thể muốn cải tổ mục tiêu của mình (và có thể giải thích vấn đề cụ thể nào sẽ giải quyết được, vì có thể có cách tiếp cận tốt hơn). –
Phân hủy là điều cuối cùng bạn muốn làm. Sự kết hợp của một chữ cái cụ thể với dấu phụ cụ thể là một bộ chọn mạnh cho ngôn ngữ. Chỉ cần xây dựng các bảng tần số lên phía trước. Nhưng có rất nhiều ngôn ngữ sử dụng bên cạnh không có dấu phụ. Bạn sẽ không thể nói sự khác biệt giữa tiếng Anh, tiếng Hà Lan và tiếng Ý chẳng hạn. Bạn sẽ cần một từ điển để làm cho nó thực sự hoạt động. Lưu trữ, nói, 100 từ phổ biến nhất sẽ đi một chặng đường dài. –