thể trùng lặp:
Javascript RegExp + Word boundaries + unicode characterstừ Regex ranh giới b có vấn đề với umlauts (ký tự đặc biệt bằng tiếng Đức)
Trong ECMA Script regex (thử nghiệm ở đây để tham khảo: http://regexpal.com/) tôi nhận được sai tích cực với các ranh giới từ (sử dụng \b
) và các ký tự umlaut. Ví dụ
regex \bPflanzen\b
không phải phù hợp với "Pflanzenöl" nhưng nó. Nếu tôi thay đổi ö
thành oe
mọi thứ hoạt động. Regex dường như không coi umlauts là một phần của từ mặc dù chúng có nhiều ngôn ngữ.
Giải pháp tốt nhất là gì?
... và giải pháp tốt nhất là sử dụng XRegExp, vì [câu trả lời này] (http://stackoverflow.com/a/10591266/20938) đề xuất. –