Dò web bằng Python

Tôi hiện đang cố gắng xóa một trang web có HTML có định dạng kém (thường thiếu thẻ đóng, không sử dụng các lớp hoặc id nên rất khó để chuyển thẳng đến phần tử bạn muốn, v.v.). Tôi đã sử dụng BeautifulSoup với một số thành công cho đến nay nhưng mỗi một lần và một thời gian (mặc dù khá hiếm khi), tôi chạy vào một trang mà BeautifulSoup tạo cây HTML hơi khác một chút (ví dụ) Firefox hoặc Webkit. Trong khi điều này là dễ hiểu vì định dạng của HTML lá này mơ hồ, nếu tôi đã có thể nhận được cùng một cây phân tích như Firefox hoặc Webkit sản xuất tôi sẽ có thể phân tích cú pháp dễ dàng hơn nhiều. Các sự cố thường giống như trang web mở một thẻ  hai lần và khi BeautifulSoup thấy thẻ thứ hai , nó ngay lập tức đóng thẻ đầu tiên trong khi Firefox và Webkit giữ các thẻ .Dò web bằng Python

Có thư viện cào web cho Python (hoặc thậm chí bất kỳ ngôn ngữ nào khác (tôi đang tuyệt vọng)) có thể tạo lại cây phân tích được tạo bởi Firefox hoặc WebKit (hoặc ít nhất là gần hơn so với BeautifulSoup trong trường hợp không rõ ràng) .

Nguồn

2010-03-07 Jack Edmonds

Tại sao không sử dụng webkit bản thân? Webkit là mã nguồn mở. Có, nó sẽ mất một ít thời gian để làm quen. –

Bạn đã nói với nhóm beautifulsoup chưa? Họ có thể quan tâm đến các góc như của bạn http://groups.google.com/group/beautifulsoup –

Đã hỏi rất nhiều lần ... –

Sử dụng BeautifulSoup như một người thợ xây cây cho html5lib:

from html5lib import HTMLParser, treebuilders 

parser = HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup")) 

text = "a<b>b<b>c" 
soup = parser.parse(text) 
print soup.prettify()

Output:

<html> 
<head> 
</head> 
<body> 
    a 
    <b> 
    b 
    <b> 
    c 
    </b> 
    </b> 
</body> 
</html>

Nguồn

2010-03-07 23:23:04 jfs

Vâng, WebKit là mã nguồn mở, do đó bạn có thể sử dụng phân tích cú pháp riêng của mình (trong thành phần WebCore), nếu ngôn ngữ nào có thể chấp nhận

Nguồn

2010-03-07 18:12:48

Bạn có thể lái xe một trình duyệt mà bạn lựa chọn với SeleniumRC.

Nguồn

2010-03-07 18:18:06

Bạn có thể muốn có một cái nhìn tại mechanize mô-đun:

http://wwwsearch.sourceforge.net/mechanize/

Nguồn

2010-03-07 19:14:11

Ian Bicking đã từng viết rằng đáng ngạc nhiên lxml có thể tốt hơn tại phân tích súp hơn BeautifulSoup: http://blog.ianbicking.org/2008/12/10/lxml-an-underappreciated-web-scraping-library/ (Chỉ cần nhắc đến để tham khảo, có không đã thử cá nhân đó)

Nguồn

2010-03-07 19:22:25

pyWebKitGTK có vẻ như nó có thể giúp ích một chút.

Ngoài ra ở đây là một anh chàng đã phải làm điều tương tự nhưng có được xuất khẩu nội dung sau khi javascript chạy, execute javascript from python using pyWebKitGTK.

pyWebkitGTK tại cheeseshop.

Bạn cũng có thể do this with pyQt.

Nguồn

2010-03-07 19:47:34

Bạn đã thử scrapy?

Scrapy là một khuôn khổ nhanh cao cấp màn hình nạo và web bò, sử dụng để thu thập thông trang web và trích xuất dữ liệu có cấu trúc từ trang của họ. Nó có thể được sử dụng cho một loạt các mục đích , từ khai thác dữ liệu đến giám sát và kiểm tra tự động.

Nguồn

2010-03-28 10:56:28

Từ các tài liệu có vẻ như ICantBelieveItsBeautifulSoup phân tích cú pháp là những gì bạn muốn:

ICantBelieveItsBeautifulSoup cũng là một lớp con của BeautifulSoup. Nó có HTML chẩn đoán tuân thủ chặt chẽ hơn với tiêu chuẩn HTML, nhưng bỏ qua cách HTML được sử dụng trong thế giới thực. Đối với dụ, đó là HTML hợp lệ để tổ thẻ, nhưng trong thế giới thực một lồng nhau tag hầu như luôn luôn có nghĩa là tác giả quên để đóng thẻ đầu tiên. Nếu bạn gặp một người nào đó thực sự tổ chức thẻ, thì bạn có thể sử dụng ICantBelieveItsBeautifulSoup.

Nguồn

2010-04-19 05:14:03 brofield

này có vẻ tốt với tôi Tôi đang sử dụng nó bản thân mình: liên kết [http://code.google.com/p/webscraping/]

Nguồn

2011-05-19 13:42:24 Max

bạn có thể sử dụng phân tích cú pháp lxml, trong BeautifulSoup, và bạn sử dụng xpath để tìm dữ liệu trong trang html chưa định dạng, bạn có thể sao chép xpath khi bạn kiểm tra phần tử bằng firebug.

Bạn có thể kiểm tra hướng dẫn này: http://www.youtube.com/watch?v=PgWfF-Ut0zM

Nguồn

2012-07-12 00:08:34

Dò web bằng Python

Trả lời

Các vấn đề liên quan