Tôi muốn so sánh hai tài liệu bất kể ngắt dòng. Nếu nội dung giống nhau nhưng vị trí và số lượng ngắt dòng khác nhau, tôi muốn ánh xạ các dòng trong một tài liệu tới các dòng trong phần còn lại.So sánh hai tài liệu bằng cách sử dụng regex
Given:
Document 1
I went to Paris in July 15, where I met some nice people.
And I came back
to NY in Aug 15.
I am planning
to go there soon
after I finish what I do.
Document 2
I went
to Paris
in July 15,
where I met
some nice people.
And I came back to NY in Aug 15.
I am planning to go
there soon after I finish what I do.
Tôi muốn một thuật toán có khả năng xác định rằng dòng 1 tại văn bản 1 chứa nội dung giống với dòng từ 1 đến 5 trong Tài liệu 2, các dòng 2 và 3 trong Tài liệu 1 chứa cùng văn bản như dòng 6 trong Tài liệu 2, v.v.
1 = 1,2,3,4,5
2,3 = 6
4,5,6 = 7,8
Có cách nào để regex khớp với mỗi dòng trong mỗi tài liệu nếu nó trải rộng trên nhiều dòng trong các tài liệu khác không?
Các số đó là gì? –
Một cách tiếp cận sẽ là chỉ tách cả hai đầu vào thành các từ, duy trì các dòng mà chúng xuất phát và chỉ tương ứng với từng từ một (giả sử các từ giống nhau). – nneonneo
các dòng phù hợp với từng tài liệu – hmghaly