Tôi đang sử dụng súp đẹp và tôi đang viết một trình thu thập và có mã sau đây trong nó:thay thế ký tự không làm việc trong python
print soup.originalEncoding
#self.addtoindex(page, soup)
links=soup('a')
for link in links:
if('href' in dict(link.attrs)):
link['href'].replace('..', '')
url=urljoin(page, link['href'])
if url.find("'") != -1:
continue
url = url.split('?')[0]
url = url.split('#')[0]
if url[0:4] == 'http':
newpages.add(url)
pages = newpages
Các link['href'].replace('..', '')
là nghĩa vụ phải sửa chữa các liên kết xuất hiện lúc ../contact /orderform.aspx, ../contact/requestconsult.aspx, v.v. Tuy nhiên, nó không hoạt động. Liên kết vẫn có hàng đầu ".." Có điều gì đó tôi bị thiếu không?