Điều này phụ thuộc rất nhiều vào ngôn ngữ (và công cụ regex) mà bạn đang sử dụng.
Trong Perl, \w
khớp với tất cả các ký tự từ, bất kể ngôn ngữ hoặc bảng chữ cái và một cái gì đó như /\b(\w+)\b/
(có thể) khớp với từ tiếng Tây Ban Nha cũng như từ tiếng Anh hoặc từ tiếng Nga.
Trong các ngôn ngữ sử dụng PCRE, \w
(và do đó có thể là \b
) KHÔNG khớp với các ký tự Unicode. Bạn có thể sẽ cần phải xây dựng bộ của riêng bạn. Tôi đề nghị một cái gì đó như [\wáéíóúñ]
(phù hợp với tất cả các ký tự từ, cộng với các ký tự có dấu bạn muốn), và thư viện PCRE phải được xây dựng sẵn với hỗ trợ Unicode trước khi điều này thậm chí sẽ làm việc.
Nếu bạn đang sử dụng thứ gì đó khác, chúc bạn may mắn. Một số động cơ regex thậm chí không hỗ trợ Unicode.
Nguồn
2009-05-22 04:51:48