xem xét như sau:Python - Regex - Làm thế nào để tìm một chuỗi giữa hai bộ chuỗi
<div id=hotlinklist>
<a href="foo1.com">Foo1</a>
<div id=hotlink>
<a href="/">Home</a>
</div>
<div id=hotlink>
<a href="/extract">Extract</a>
</div>
<div id=hotlink>
<a href="/sitemap">Sitemap</a>
</div>
</div>
Làm thế nào bạn sẽ đi về lấy ra dòng sitemap với regex trong python?
<a href="/sitemap">Sitemap</a>
Sau đây có thể được sử dụng để kéo các thẻ neo.
'/<a(.*?)a>/i'
Tuy nhiên, có nhiều thẻ liên kết. Ngoài ra còn có nhiều hotlink (s) vì vậy chúng tôi không thể thực sự sử dụng chúng?
Có thể bạn sẽ nghe thấy rằng biểu thức thông thường không phù hợp để phân tích một bối cảnh miễn phí ngôn ngữ như HTML. – Gumbo
Nếu bạn là người tạo HTML đó, đáng chú ý là nhiều, các thuộc tính 'id =' giống hệt nhau không hợp lệ. Một 'class =' là thích hợp hơn. –