Hãy chịu với tôi. Tôi khá mới ở Python - nhưng có rất nhiều niềm vui. Tôi đang cố gắng để mã một trình thu thập dữ liệu web thu thập dữ liệu thông qua kết quả bầu cử từ cuộc trưng cầu dân ý cuối cùng ở Đan Mạch. Tôi đã quản lý để trích xuất tất cả các liên kết có liên quan từ trang chính. Và bây giờ tôi muốn Python theo dõi mỗi 92 liên kết và thu thập 9 mẩu thông tin từ mỗi trang đó. Nhưng tôi rất khó khăn. Hy vọng bạn có thể cho tôi một gợi ý.Trình thu thập thông tin web - các liên kết sau
Đây là mã của tôi:
import requests
import urllib2
from bs4 import BeautifulSoup
# This is the original url http://www.kmdvalg.dk/
soup = BeautifulSoup(urllib2.urlopen('http://www.kmdvalg.dk/').read())
my_list = []
all_links = soup.find_all("a")
for link in all_links:
link2 = link["href"]
my_list.append(link2)
for i in my_list[1:93]:
print i
# The output shows all the links that I would like to follow and gather information from. How do I do that?
Bạn có thể đề cập thêm về 9 mẩu thông tin bạn muốn lấy bên trong mỗi liên kết không? – titipata
Wow - các bạn thật là đáng sợ !! Tôi sẽ phải dành thời gian cố gắng để hiểu các giải pháp của bạn. Tôi sẽ quay lại ngay sau khi tôi đã đánh bại họ. CẢM ƠN RẤT NHIỀU! – Metods
@titipat: Có. Hãy xem trên trang con này. Tôi muốn lấy "stemmeberettigede/số người có thể bầu", "Optalte stemmer/count votes", "JA-stemmer/Những người bình chọn có", "NEJ-stemmer/những người bình chọn không", "Blanke stemmer/blank phiếu bầu "," Ugyldige stemmer/phiếu bầu không hợp lệ "và tên của đô thị (Assenskredsen trong trường hợp này) – Metods