2012-01-24 23 views
5

Tôi đang cố gắng để bắt một phần của Hebrew văn bản (nguồn gốc là bình luận trên một trang web tin tức) bằng cách sử dụng regex sau:Làm thế nào để nắm bắt tiếng Hebrew với regex trong Java?

[\u0590-\u05FF \\p{Graph} \\s]+ 

Nó hoạt động cho hầu hết các ý kiến, nhưng một số ý kiến ​​được bỏ qua.

Tôi đã cố gắng gỡ lỗi này và có vẻ như có một chữ cái tiếng Do Thái không khớp với mẫu.

Khi tôi trích xuất thư này và in giá trị số nguyên của nó có vẻ đúng nhưng vẫn regex không bắt được ...

Ý tưởng?

+0

Bạn có sử dụng 'Pattern.UNICODE_CASE' bên trong phương thức' Pattern.compile' không? –

+0

Không, phải không? – lribinik

+0

Hãy thử: 'Pattern p = Pattern.compile (" YOUR_REGEX ", Pattern.UNICODE_CASE);' –

Trả lời

0

Sẽ sematically hơn đúng để sử dụng \p{InHebrew} thay vì \u0590-\u05FF

Ngoài ra bạn cần phải phù hợp với dấu chấm câu, chữ số (ít nhất, những thế giới phổ biến) và loại khác nhau của không gian. Tôi không biết \p{Graph} là gì và có bất kỳ ký hiệu dấu câu tiếng Do Thái cụ thể nào không, nhưng có vẻ như bạn đã bỏ lỡ một số phần.

Các vấn đề liên quan