Điều này sẽ dễ dàng nhưng tôi bị kẹt.Phế liệu - Chọn liên kết cụ thể dựa trên văn bản
<div class="paginationControl">
<a href="/en/overview/0-All_manufactures/0-All_models.html?page=2&powerunit=2">Link Text 2</a> |
<a href="/en/overview/0-All_manufactures/0-All_models.html?page=3&powerunit=2">Link Text 3</a> |
<a href="/en/overview/0-All_manufactures/0-All_models.html?page=4&powerunit=2">Link Text 4</a> |
<a href="/en/overview/0-All_manufactures/0-All_models.html?page=5&powerunit=2">Link Text 5</a> |
<!-- Next page link -->
<a href="/en/overview/0-All_manufactures/0-All_models.html?page=2&powerunit=2">Link Text Next ></a>
</div>
Tôi đang cố gắng sử dụng Scrapy (Basespider) để chọn liên kết dựa trên đó là liên kết văn bản sử dụng:
nextPage = HtmlXPathSelector(response).select("//div[@class='paginationControl']/a/@href").re("(.+)*?Next")
Ví dụ, tôi muốn chọn liên kết trang tiếp theo dựa trên thực tế rằng văn bản của nó là "Liên kết văn bản tiếp theo". Bất kỳ ý tưởng?
Xin cảm ơn các bạn. Tôi đã sử dụng đề xuất của @unutbu và nó hoạt động hoàn hảo. –
Vì vậy, không có cách chọn CSS nào để thực hiện việc này? – deostroll