Tôi vừa mới bắt đầu học cào web bằng cách sử dụng Python. Tuy nhiên, tôi đã gặp phải một số vấn đề.Web Cạo dữ liệu bằng cách sử dụng python?
Mục tiêu của tôi là để phế liệu web tên của các loài cá ngừ khác nhau từ fishbase.org (http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=salmon)
Vấn đề: Tôi không thể trích xuất tất cả các tên loài.
Đây là những gì tôi có cho đến nay:
import urllib2
from bs4 import BeautifulSoup
fish_url = 'http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Tuna'
page = urllib2.urlopen(fish_url)
soup = BeautifulSoup(html_doc)
spans = soup.find_all(
Từ đây, tôi không biết làm thế nào tôi sẽ đi về giải nén tên loài. Tôi đã nghĩ đến việc sử dụng regex (tức soup.find_all("a", text=re.compile("\d+\s+\d+"))
để nắm bắt các văn bản bên trong thẻ ...
Bất kỳ đầu vào sẽ được đánh giá cao!
Thật vậy 'findAll' đã được đổi tên cho 'find_all' để được tuân thủ pep8. Thông tin thêm [tại đây] (http://www.crummy.com/software/BeautifulSoup/bs4/doc/#method-names). – jcollado