Tôi đang sử dụng lxml để phân tích các tệp html được cung cấp bằng url.Thỏa thuận về https khi sử dụng lxml là gì?
Ví dụ:
link = 'https://abc.com/def'
htmltree = lxml.html.parse(link)
Mã của tôi là làm việc tốt cho hầu hết các trường hợp, những người thân với http://
. Tuy nhiên, tôi tìm thấy mọi url https://
, lxml chỉ đơn giản là nhận được IOError. Có ai biết lý do không? Và có thể, làm thế nào để sửa vấn đề này?
BTW, tôi muốn chuyển sang lxml hơn chuyển sang BeautifulSoup do tôi đã có một chương trình hoàn thành nhanh chóng.
'từ urllib.request import urlopen' for python3 –