Tôi đang cố gắng phân tích cú pháp danh sách kết quả của http://mobile.de.Phân tích cú pháp HTML với BeautifulSoup 4 và Python
Trước tiên, tôi đã thử với Lớp học HTMLParser
, nhưng tôi gặp lỗi: HTMLParser.HTMLParseError: EOF in middle of construct
.
Vì vậy, tôi đã thử nó với BeautifulSoup 4 tốt hơn cho các trang web không hợp lệ, nhưng <div>
Tôi đang tìm kiếm không thể truy cập được và tôi không thể biết đó là lỗi của tôi hay của trang web.
from bs4 import BeautifulSoup
import urllib
import socket
searchurl = "http://suchen.mobile.de/auto/search.html?scopeId=C&isSearchRequest=true&sortOption.sortBy=price.consumerGrossEuro"
f = urllib.urlopen(searchurl)
html = f.read()
soup = BeautifulSoup(html)
for link in soup.find_all("div","listEntry "):
print link
listEntry
là <div>
với kết quả của những chiếc xe. Nhưng có vẻ như anh ấy không phân tích cú pháp <form id="parkAndCompareVehicle" name="parkAndCompareVehicle" action="">
. Tôi không thể tìm thấy hình thức trong soupobject.
Lỗi ở đâu?
gì bạn nhận được nếu bạn thử cách sau vòng lặp for để thay thế? - 'cho liên kết trong soup.find_all (" form ", id =" parkAndCompareVehicle ")'? (Xem http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html#The%20basic%20find%20method:%20findAll(name,%20attrs,%20recursive,%20text,%20limit,%20* * kwargs)) –
Tôi không nhận được gì. Tôi cũng đã thử với find_all ("form") và tôi chỉ nhận được 2 người khác. – user1010775
hmm 'soup.find_all ('form', id = 'parkAndCompareVehicle')' trả về biểu mẫu cho tôi – gorlum0