Tôi có một số tài liệu đã trải qua chuyển đổi OCR từ PDF sang HTML. Do đó, họ có nhiều dấu chấm câu ngẫu nhiên trong đó công cụ chuyển đổi bị hỏng (tức là elipses, v.v ...). Chúng cũng chính xác có một nhóm không phải tiếng Anh, nhưng vẫn là các ký tự chữ cái, như é, và các ký tự tiếng Nga, vv ...Có cách nào để phù hợp với bất kỳ ký tự không phải chữ cái Unicode nào không?
Có cách nào để tạo một Regex khớp với bất kỳ ký tự chữ cái unicode nào (từ bảng chữ cái bất kỳ ngôn ngữ nào)? Hoặc một trong đó sẽ chỉ phù hợp với các ký tự không phải chữ cái? Hoặc là một trong những sẽ thực sự hữu ích và tuyệt vời. Tôi đang sử dụng Perl, nếu điều đó thay đổi bất cứ điều gì. Cảm ơn!
Trong cùng một cách, bạn có thể sử dụng '\ P' để khớp với ký tự * không * có thuộc tính cụ thể (vì vậy' \ P {L} 'khớp với bất kỳ ký tự không phải chữ nào). –
Tôi có thể sử dụng mã ký tự bỏ qua một số điểm mã không? Giống như \ p {P} bỏ qua dấu chấm và dấu phẩy? Sự phủ nhận điều đó sẽ hoàn hảo đối với tôi. – Eli