Lấy HTML được render bằng MozRepl và Mechanize :: Firefox

Tôi vừa mới được giới thiệu về những điều kỳ diệu của MozRepl được sử dụng kết hợp với WWW :: Mechanize :: Firefox của Perl và đang cố gắng tìm cách sử dụng nó để thu thập thông tin GWT các trang (ví dụ: https://www.google.com/offers/home#!details/4bc7fd6bd3feb311/XYW81TXGLA88TR42)Lấy HTML được render bằng MozRepl và Mechanize :: Firefox

Điều tôi thực sự muốn là html được hiển thị, chứ không phải html thực tế. Sẽ thực sự đánh giá cao một ví dụ về cách tôi sẽ nhận được điều này.

Nguồn

2011-10-23 Vijay Boyapati

Có vẻ như tôi có thể hiển thị các phần của trang bằng cách thực hiện ví dụ: $ mech-> xpath ('// * [@ id = "goh-content-container"]', one => 1) -> {innerHTML}; Kỳ lạ thay, điều này dường như không làm việc liên tục. Thỉnh thoảng nó sẽ xuất ra không có gì, và những lúc khác nó sẽ xuất ra HTML. Bất kỳ ý tưởng về lý do tại sao nó không liên tục cung cấp đầu ra? –

Thông tin thêm: khi tôi chạy một trình thu thập thông tin duy nhất có vẻ như xuất ra nhất quán, nhưng nếu tôi có nhiều tương tác với MozRepl, đầu ra dường như được tạo ra ít nhất quán. Chạy trên Ubuntu 11.04 với Firefox 7.0.1 –

Tôi quyết định sử dụng tuyệt vời PhantomJS để hoàn thành công việc. Thật dễ dàng để sử dụng Phantom làm công cụ phía máy chủ để nhận HTML được hiển thị của trang web động.

Nguồn

2012-10-10 21:36:24

Lấy HTML được render bằng MozRepl và Mechanize :: Firefox

Trả lời

Các vấn đề liên quan