Tôi làm cách nào để bảo vệ làm dòng mới với lxml.html text_content() hoặc tương đương?

Tôi muốn giữ lại các thẻ   làm \n khi trích xuất nội dung văn bản từ các phần tử lxml.Tôi làm cách nào để bảo vệ làm dòng mới với lxml.html text_content() hoặc tương đương?

Ví dụ mã:

fragment = '<div>This is a text node. This is another text node. And a child element.Another child, with two text nodes</div>'

h = lxml.html.fromstring(fragment)

Output:

> h.text_content() 
'This is a text node.This is another text node.And a child element.Another child, with two text nodes'

Nguồn

2013-09-06 extempo

Trông giống như thế nào sau khi phân tích cú pháp? –

prepending một nhân vật \n đến đuôi của mỗi phần tử   nên cung cấp cho các kết quả mà bạn đang mong đợi:

>>> import lxml.html as html 
>>> fragment = '<div>This is a text node.<br/>This is another text node.<br/><br/><span>And a child element.</span><span>Another child,<br> with two text nodes</span></div>' 
>>> doc = html.document_fromstring(fragment) 
>>> for br in doc.xpath("*//br"): 
     br.tail = "\n" + br.tail if br.tail else "\n" 

>>> doc.text_content() 
'This is a text node.\nThis is another text node.\n\nAnd a child element.Another child,\n with two text nodes' 
>>> fragment 
'<div>This is a text node.<br/>This is another text node.<br/><br/><span>And a child element.</span><span>Another child,<br> with two text nodes</span></div>'

Nguồn

2013-09-06 15:15:31

Cảm ơn, tôi vừa phát hiện ra điều này, cố chạy thử nghiệm với ví dụ html tôi đã đăng. – extempo

Tôi đã cập nhật ví dụ về mã của mình bằng cách sử dụng html mẫu được cập nhật của bạn. –

Tôi làm cách nào để bảo vệ <br> làm dòng mới với lxml.html text_content() hoặc tương đương?

Trả lời

Tôi làm cách nào để bảo vệ <br> làm dòng mới với lxml.html text_content() hoặc tương đương?

Trả lời

Các vấn đề liên quan