2014-12-10 16 views
7

Tôi đang sử dụng Python 2.7 với Selenium WebDriver. Câu hỏi của tôi là cách in toàn bộ nguồn trang với phương pháp print. Có phương pháp webdriver page_source nhưng nó sẽ trả về WebDriver và tôi không biết làm thế nào để chuyển đổi nó để String hoặc chỉ cần in tại nhà gaPython WebDriver cách in toàn bộ nguồn trang (html)

Trả lời

22

.page_source về một trường hợp webdriver là những gì bạn cần:

>>> from selenium import webdriver 
>>> driver = webdriver.Firefox() 
>>> driver.get('http://google.com') 
>>> print(driver.page_source) 
<!DOCTYPE html> 
<html xmlns="http://www.w3.org/1999/xhtml" lang="en" itemtype="http://schema.org/WebPage" itemscope=""><head><meta name="descri 
... 
:before,.vscl.vslru div.vspib{top:-4px}</style></body></html> 
+2

Cảm ơn bạn, đây chính xác là những gì tôi cần! Đó là lỗi của tôi vì tôi đã làm điều này theo cách xấu 'print driver.page_source' (driver.page_source không nằm trong ngoặc vuông) – wmarchewka

0

Bạn cũng có thể lấy nguồn trang HTML mà không cần sử dụng trình duyệt. Mô-đun yêu cầu cho phép bạn làm điều đó.

import requests 

res = requests.get('https://google.com') 
res.raise_for_status() # this line trows an exception if an error on the 
         # connection to the page occurs. 
print(res.text) 
Các vấn đề liên quan