Tìm liên kết cụ thể w/beautifulsoup

Xin chào, tôi không thể tìm ra cách tìm các liên kết bắt đầu bằng văn bản nhất định cho cuộc đời của tôi. findall ('a') hoạt động tốt, nhưng đó là cách quá nhiều. Tôi chỉ muốn tạo danh sách tất cả các liên kết bắt đầu bằng http://www.nhl.com/ice/boxscore.htm?id=Tìm liên kết cụ thể w/beautifulsoup

Bất kỳ ai có thể giúp tôi không?

Thank you very much

Nguồn

2011-10-11 Jen Scott

Đầu tiên thiết lập một tài liệu thử nghiệm và mở ra các phân tích cú pháp với BeautifulSoup:

>>> from BeautifulSoup import BeautifulSoup 
>>> doc = '<html><body><div><a href="something">yep</a></div><div><a href="http://www.nhl.com/ice/boxscore.htm?id=3">somelink</a></div><a href="http://www.nhl.com/ice/boxscore.htm?id=7">another</a></body></html>' 
>>> soup = BeautifulSoup(doc) 
>>> print soup.prettify() 
<html> 
<body> 
    <div> 
    <a href="something"> 
    yep 
    </a> 
    </div> 
    <div> 
    <a href="http://www.nhl.com/ice/boxscore.htm?id=3"> 
    somelink 
    </a> 
    </div> 
    <a href="http://www.nhl.com/ice/boxscore.htm?id=7"> 
    another 
    </a> 
</body> 
</html>

Tiếp theo, chúng ta có thể tìm kiếm tất cả <a> thẻ với một href thuộc tính bắt đầu với http://www.nhl.com/ice/boxscore.htm?id=. Bạn có thể sử dụng một biểu thức chính quy cho nó:

>>> import re 
>>> soup.findAll('a', href=re.compile('^http://www.nhl.com/ice/boxscore.htm\?id=')) 
[<a href="http://www.nhl.com/ice/boxscore.htm?id=3">somelink</a>, <a href="http://www.nhl.com/ice/boxscore.htm?id=7">another</a>]

Nguồn

2011-10-11 21:35:44 jterrace

Wow cảm ơn. Tôi đoán tài liệu của Beautifulsoup giả định sự lưu loát trong regex. Cảm ơn bạn đã cho tôi biết rằng –

@JenScott Nếu điều này đã trả lời câu hỏi của bạn, bạn nên chấp nhận câu hỏi đó. – serk

Tốt nhưng nếu tên thuộc tính của bạn được gọi là "lớp" thì sao? – Wajih

Bạn có thể không cần BeautifulSoup từ tìm kiếm của bạn là cụ

>>> import re 
>>> links = re.findall("http:\/\/www\.nhl\.com\/ice\/boxscore\.htm\?id=.+", str(doc))

Nguồn

2016-05-02 16:05:36 Emma

Tìm liên kết cụ thể w/beautifulsoup

Trả lời

Các vấn đề liên quan