Tôi có một văn bản và sử dụng regex đơn giản này để chia nhỏ nó thành các từ: [ \n]
. Nó chia tách văn bản thành các từ bằng cách sử dụng dấu cách và dấu ngắt dòng.Cách tách văn bản bằng regex, nhưng các từ được chia nhỏ tiếp tục giữ dấu phân cách regex?
Tôi muốn biết nếu có cách nào để giữ khoảng trắng hoặc ngắt dòng trong từ được tách ra, vì tôi sẽ sử dụng điều này để phát hiện câu đơn giản sau khi xử lý một số.
Tôi đang sử dụng phương thức String#split
.
\ n "Có nghĩa là điều gì đó đặc biệt (kết thúc câu)? Bạn không xử lý các đoạn văn bình thường trên nhiều dòng với "." khi kết thúc câu? – toto2
@ toto2 Dấu chấm câu cũng được sử dụng để xác định kết thúc câu, nhưng nội dung xuất phát từ nội dung HTML, rất nhiều câu như tiêu đề không có dấu chấm câu xác định nơi câu kết thúc, chỉ ngắt dòng. –
Tôi không chắc bạn nên dựa vào \ n khi xử lý HTML, vì bạn có thể có một tài liệu hoàn hảo không có một \ n. – toto2