Tôi đã có truy vấn xpath này:Làm thế nào để trích xuất các liên kết từ một trang web bằng cách sử dụng lxml, XPath và Python?
/html/body//tbody/tr[*]/td[*]/a[@title]/@href
Nó trích xuất toàn bộ liên kết với thuộc tính tiêu đề - và cung cấp cho các href
trong FireFox's Xpath checker add-on.
Tuy nhiên, tôi không thể sử dụng nó với lxml
.
from lxml import etree
parsedPage = etree.HTML(page) # Create parse tree from valid page.
# Xpath query
hyperlinks = parsedPage.xpath("/html/body//tbody/tr[*]/td[*]/a[@title]/@href")
for x in hyperlinks:
print x # Print links in <a> tags, containing the title attribute
Điều này không tạo ra kết quả từ lxml
(danh sách trống).
Làm cách nào để lấy văn bản href
(liên kết) của siêu liên kết chứa tiêu đề thuộc tính với lxml
trong Python?
Tài liệu bạn đang phân tích cú pháp có một vùng tên (xmlns) được đặt không? –