Làm thế nào để nắm bắt tiếng Hebrew với regex trong Java?

Tôi đang cố gắng để bắt một phần của Hebrew văn bản (nguồn gốc là bình luận trên một trang web tin tức) bằng cách sử dụng regex sau:Làm thế nào để nắm bắt tiếng Hebrew với regex trong Java?

[\u0590-\u05FF \\p{Graph} \\s]+

Nó hoạt động cho hầu hết các ý kiến, nhưng một số ý kiến được bỏ qua.

Tôi đã cố gắng gỡ lỗi này và có vẻ như có một chữ cái tiếng Do Thái không khớp với mẫu.

Khi tôi trích xuất thư này và in giá trị số nguyên của nó có vẻ đúng nhưng vẫn regex không bắt được ...

Ý tưởng?

Nguồn

2012-01-24 lribinik

Bạn có sử dụng 'Pattern.UNICODE_CASE' bên trong phương thức' Pattern.compile' không? –

Không, phải không? – lribinik

Hãy thử: 'Pattern p = Pattern.compile (" YOUR_REGEX ", Pattern.UNICODE_CASE);' –

Sẽ sematically hơn đúng để sử dụng \p{InHebrew} thay vì \u0590-\u05FF

Ngoài ra bạn cần phải phù hợp với dấu chấm câu, chữ số (ít nhất, những thế giới phổ biến) và loại khác nhau của không gian. Tôi không biết \p{Graph} là gì và có bất kỳ ký hiệu dấu câu tiếng Do Thái cụ thể nào không, nhưng có vẻ như bạn đã bỏ lỡ một số phần.

Nguồn

2012-01-24 13:00:02 kirilloid

Làm thế nào để nắm bắt tiếng Hebrew với regex trong Java?

Trả lời

Các vấn đề liên quan