Làm cách nào để xóa các thuộc tính nhất định như id, kiểu, lớp, v.v ... khỏi mã HTML?xóa các thuộc tính nhất định khỏi các thẻ HTML
Tôi nghĩ rằng tôi có thể sử dụng lxml.html.clean module, nhưng khi nó bật ra tôi chỉ có thể loại bỏ các thuộc tính phong cách với Clean(style=True).clean_html(code)
. Tôi không muốn sử dụng các biểu thức chính quy cho nhiệm vụ này (các thuộc tính có thể thay đổi).
Những gì tôi muốn có:
from lxml.html.clean import Cleaner
code = '<tr id="ctl00_Content_AdManagementPreview_DetailView_divNova" class="Extended" style="display: none;">'
cleaner = Cleaner(style=True, id=True, class=True)
cleaned = cleaner.clean_html(code)
print cleaned
'<tr>'
Cảm ơn trước!
Cảm ơn, đó chính xác là những gì tôi cần! – naeg
Tôi gặp sự cố khi sử dụng kỹ thuật này để làm việc trong lxml-3.2.3. Xảy ra để biết nếu họ thay đổi một cái gì đó? – Xavi
Để làm cho nó hoạt động trong v3.2.3 tôi phải thêm 'clean.safe_attrs = clean.defs.safe_attrs' sau' cleaner = clean.Cleaner (...) '. – Xavi