2016-01-01 41 views
13

Tôi đang cố gắng trích xuất các tiểu bang của Hoa Kỳ từ URL wiki và tôi đang sử dụng Python Pandas.Pandas: read_html

import pandas as pd 
import html5lib 
f_states = pd.read_html('https://simple.wikipedia.org/wiki/List_of_U.S._states') 

Tuy nhiên, các mã trên là cho tôi một L lỗi

ImportError Traceback (most recent call last) in() 1 import pandas as pd ----> 2 f_states = pd.read_html(' https://simple.wikipedia.org/wiki/List_of_U.S._states ')

if flavor in ('bs4', 'html5lib'): 662 if not _HAS_HTML5LIB: --> 663 raise ImportError("html5lib not found, please install it") 664 if not _HAS_BS4: 665 raise ImportError("BeautifulSoup4 (bs4) not found, please install it") ImportError: html5lib not found, please install it

Tôi đã cài đặt html5lib và beautifulsoup4 là tốt, nhưng nó không phải đang làm việc. Ai đó có thể giúp đỡ.

Trả lời

20

Chạy Python 3.4 trên mac

New pyvenv

pip install pandas 
pip install lxml 
pip install html5lib 
pip install BeautifulSoup4 

Sau đó chạy ví dụ của bạn ....

import pandas as pd 
import html5lib 
f_states= pd.read_html('https://simple.wikipedia.org/wiki/List_of_U.S._states') 

Tất cả các công trình ...

+2

cảm ơn, điều này đã hiệu quả. Mặc dù tôi đã cài đặt tất cả chúng, nhưng tôi đã cài đặt lại nó và mở một phiên bản mới, và nó đã hoạt động. cảm ơn – user4943236

+0

Vui mừng nó đã giúp bạn –

+0

Điều tương tự ở đây @TimSeed, tôi đã cài đặt mọi thứ bằng pip, sau đó phải khởi chạy lại một phiên bản mới. –

0

Bạn cần cài đặt lxml bằng pip.

pip install lxml

làm việc này cho tôi.

+0

Một số định dạng sẽ làm phép thuật. Bit chỉnh sửa tốt hơn – Billa