Tôi đã đấu tranh với python regex trong một thời gian cố gắng để phù hợp với đoạn văn trong một văn bản, nhưng tôi đã không thành công. Tôi cần phải có được vị trí bắt đầu và kết thúc của các đoạn văn.Làm thế nào phù hợp với một đoạn bằng cách sử dụng regex
Một ví dụ về văn bản:
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod
tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At
vero eos et accusam et justo duo dolores et ea rebum.
Stet clita kasd gubergren,
no sea takimata sanctus est Lorem ipsum dolor sit amet.
Ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod
tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At
vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren,
no sea takimata sanctus est Lorem ipsum dolor sit amet.
Trong trường hợp ví dụ này, tôi muốn để phù hợp với độc lập toàn bộ các đoạn bắt đầu với Lorem, Stet và Ipsum tương ứng (không có dòng trống). Có ai có bất kỳ ý tưởng làm thế nào để làm điều này?
Có một lý do tại sao bạn lại muốn làm điều này với regex? Đối với một cái gì đó đơn giản như tách các đoạn được giới hạn hai dòng mới, bạn chỉ có thể sử dụng 'paragraph.split ('\ n \ n')' –
Tôi quan tâm đến vị trí bắt đầu và kết thúc của các đoạn văn, chứ không phải trong các chuỗi thực tế. Đáng lẽ tôi phải đề cập điều đó. –