Tôi đang cố gắng sử dụng html5lib để phân tích cú pháp trang html vào một thứ mà tôi có thể truy vấn bằng xpath. html5lib đã gần bằng không tài liệu và tôi đã dành quá nhiều thời gian cố gắng để tìm ra vấn đề này. Mục tiêu cuối cùng là phải rút ra khỏi hàng thứ hai của một bảng:Làm cách nào để phân tích cú pháp HTML bằng html5lib và truy vấn HTML được phân tích cú pháp bằng XPath?
<html>
<table>
<tr><td>Header</td></tr>
<tr><td>Want This</td></tr>
</table>
</html>
bây giờ bạn hãy nó:
>>> doc = html5lib.parse('<html><table><tr><td>Header</td></tr><tr><td>Want This</td> </tr></table></html>', treebuilder='lxml')
>>> doc
<lxml.etree._ElementTree object at 0x1a1c290>
rằng có vẻ tốt, cho phép xem những gì khác chúng ta có:
>>> root = doc.getroot()
>>> print(lxml.etree.tostring(root))
<html:html xmlns:html="http://www.w3.org/1999/xhtml"><html:head/><html:body><html:table><html:tbody><html:tr><html:td>Header</html:td></html:tr><html:tr><html:td>Want This</html:td></html:tr></html:tbody></html:table></html:body></html:html>
LOL WUT?
nghiêm túc. Tôi đã lên kế hoạch sử dụng một số xpath để lấy dữ liệu tôi muốn, nhưng điều đó dường như không hoạt động. Vậy tôi có thể làm gì? Tôi sẵn sàng thử các thư viện và cách tiếp cận khác nhau.
Tôi nghĩ rằng yêu cầu là một giải pháp Python. –