Trích xuất dữ liệu cụ thể từ một trang web sử dụng PHP

thể trùng lặp:
HTML Scraping in Php Trích xuất dữ liệu cụ thể từ một trang web sử dụng PHP

Tôi muốn biết nếu có cách nào để có được từ một trang web một chuỗi cụ thể của văn bản được cập nhật mọi lúc và sau đó sử dụng PHP. Tôi đã tìm kiếm "trên internet" và không tìm thấy gì cả. Chỉ thấy rằng preg_match có thể làm được, nhưng tôi không hiểu cách sử dụng nó.

tưởng tượng rằng một trang web chứa này:

<div name="changeable_text">**GET THIS TEXT**</div>

Làm thế nào tôi có thể làm điều đó bằng PHP, sau khi đã sử dụng file_get_contents đặt trang trong một biến?

Cảm ơn trước :)

Nguồn

2012-07-19 Daniel Silva

Quên tên div. LOL –

Chủ đề bạn đang tìm kiếm là "cạo màn hình". Xem thêm thông tin tại đây http://stackoverflow.com/tags/screen-scraping/info – jumpnett

Bạn có thể sử dụng DOMDocument, như thế này:

$html = file_get_contents($url); 

libxml_use_internal_errors(true); 
$doc = new DOMDocument; 
$doc->loadHTML($html); 
$xpath = new DOMXpath($doc); 

// A name attribute on a <div>??? 
$node = $xpath->query('//div[@name="changeable_text"]')->item(0); 

echo $node->textContent; // This will print **GET THIS TEXT**

Nguồn

2012-07-19 19:12:24 nickb

thats help me :) –

Bạn có thể muốn có một cái nhìn tại

Simple HTML Thư viện DOM

Có một ít hướng dẫn ở đây: http://www.developertutorials.com/tutorials/php/easy-screen-scraping-in-php-simple-html-dom-library-simplehtmldom-398/

Đó là một API cạo màn hình cho phép bạn nạp html vào nó và sau đó lấy các phần của nó trong một jQuery simi ngôn ngữ nói dối.

Nguồn

2012-07-19 19:11:24

Bạn đang nói về data scraping: các hoạt động để lấy dữ liệu từ một đầu ra có thể đọc được của con người. Trong trường hợp của bạn, đây là bất kỳ thứ gì nằm giữa các thẻ <div>. Sử dụng tiện ích mở rộng của PHP DOM để truy cập vào thẻ bạn muốn và trích xuất dữ liệu. Google tìm kiếm một hướng dẫn PHP DOM.

Nguồn

2012-07-19 19:31:54 Celeritas

$delements= file_get_html('url will go here'); 

foreach($elements->find('element') as $ele) { 

  //traverse according to your preferences 

} 

//return or output

Nguồn

2012-07-19 20:29:48 spiralclick

Trích xuất dữ liệu cụ thể từ một trang web sử dụng PHP

Trả lời

Các vấn đề liên quan