Regex để phân chia thành công của các ký tự dòng mới

Tôi đang cố gắng chia chuỗi trên ký tự dòng mới (phục vụ cho các ký tự dòng mới của Windows, OS X và Unix). Nếu có bất kỳ sự kế thừa nào trong số này, tôi cũng muốn chia nhỏ số đó và không bao gồm bất kỳ kết quả nào trong số.Regex để phân chia thành công của các ký tự dòng mới

Vì vậy, khi chia như sau:

"Foo\r\n\r\nDouble Windows\r\rDouble OS X\n\nDouble Unix\r\nWindows\rOS X\nUnix"

kết quả

Các sẽ là:

['Foo', 'Double Windows', 'Double OS X', 'Double Unix', 'Windows', 'OS X', 'Unix']

tôi nên sử dụng regex gì?

Nguồn

2010-04-08 Humphrey Bogart

Bạn có lo ngại về khoảng trắng dọc khác? \ r \ n là DOS, nhưng vẫn còn các khoảng trắng dọc khác như tab dọc và Unicode NBSP, PS, LS, NNBSP. Bạn có thể muốn kiểm tra xem Python có hỗ trợ khái niệm về newline chung hay không. Perl có \ v và \ R phù hợp với bất kỳ khoảng trắng dọc hoặc linefeed chung nào tương ứng. Nếu không, nếu bạn muốn các ký tự Unicode, hãy thêm chúng vào các lớp ký tự của bạn [\ r \ n] + và tương đương với Python để tìm kiếm các ký tự Unicode đó. – dawg

re.split(r'[\n\r]+', line)

Nguồn

2010-04-08 00:22:43

Các mô hình đơn giản nhất cho mục đích này là r'[\r\n]+' mà bạn có thể phát âm như "một hoặc nhiều chuyên chở-trả lại hoặc ký tự xuống dòng".

Nguồn

2010-04-08 00:23:27

Yup. Điều đó hoạt động. – dawg

>>> s="Foo\r\n\r\nDouble Windows\r\rDouble OS X\n\nDouble Unix\r\nWindows\rOS X\nUnix" 
>>> import re 
>>> re.split("[\r\n]+",s) 
['Foo', 'Double Windows', 'Double OS X', 'Double Unix', 'Windows', 'OS X', 'Unix']

Nguồn

2010-04-08 00:34:50 ghostdog74

Nếu không có dấu cách ở đầu hoặc cuối dòng, bạn có thể sử dụng line.split() không có đối số. Nó sẽ loại bỏ gấp đôi. . Nếu không, bạn có thể sử dụng [a for a a.split("\r\n") if a].

CHỈNH SỬA: loại str cũng có phương thức được gọi là "đường tách".

"Foo\r\n\r\nDouble Windows\r\rDouble OS X\n\nDouble Unix\r\nWindows\rOS X\nUnix".splitlines()

Nguồn

2010-04-08 03:19:33 magcius

+1 cho đường tách –

Chú ý đến các quy tắc tham lam cho các mẫu:

pattern = re.compile(r'(\r\n){2,}|(\n\r){2,}|(\r){2,}|(\n){2,}') 
paragraphs = pattern.split(text)

Nguồn

2015-09-17 16:44:55 jlettvin

Regex để phân chia thành công của các ký tự dòng mới

Trả lời

Các vấn đề liên quan