Tôi đang cố gắng để bắt một phần của Hebrew văn bản (nguồn gốc là bình luận trên một trang web tin tức) bằng cách sử dụng regex sau:Làm thế nào để nắm bắt tiếng Hebrew với regex trong Java?
[\u0590-\u05FF \\p{Graph} \\s]+
Nó hoạt động cho hầu hết các ý kiến, nhưng một số ý kiến được bỏ qua.
Tôi đã cố gắng gỡ lỗi này và có vẻ như có một chữ cái tiếng Do Thái không khớp với mẫu.
Khi tôi trích xuất thư này và in giá trị số nguyên của nó có vẻ đúng nhưng vẫn regex không bắt được ...
Ý tưởng?
Bạn có sử dụng 'Pattern.UNICODE_CASE' bên trong phương thức' Pattern.compile' không? –
Không, phải không? – lribinik
Hãy thử: 'Pattern p = Pattern.compile (" YOUR_REGEX ", Pattern.UNICODE_CASE);' –