Tôi muốn nhận danh sách tất cả các url hình ảnh từ nguồn HTML của một trang web (Cả hai abosulte và url tương đối). Tôi đã sử dụng Jsoup để phân tích cú pháp HTML nhưng không cung cấp tất cả hình ảnh. Ví dụ khi tôi phân tích google.com HTML nguồn cho thấy nó không images..In google.com HTML liên kết hình ảnh nguồn ở dạng ..Trích xuất tất cả hình ảnh từ HTML bằng cách sử dụng JAVA
"background:url(/intl/en_com/images/srpr/logo1w.png)
Và trong rediff.com những hình ảnh liên kết ở dạng ..
videoArr[j]=new Array("http://ishare.rediff.com/video/entertainment/bappi-da-the-first-indian-in-grammy-jury/2684982","http://datastore.rediff.com/h86-w116/thumb/5E5669666658606D6A6B6272/v3np2zgbla4vdccf.D.0.bappi.jpg","Bappi Da - the first Indian In Grammy jury","http://mypage.rediff.com/profile/getprofile/LehrenTV/12669275","LehrenTV","(2:33)"); j = 1 videoArr[j]=new Array("http://ishare.rediff.com/video/entertainment/bebo-shahid-jab-they-met-again-/2681664","http://datastore.rediff.com/h86-w116/thumb/5E5669666658606D6A6B6272/ra8p9eeig8zy5qvd.D.0.They-Met-Again.jpg","Bebo-Shahid : Jab they met again!","http://mypage.rediff.com/profile/getprofile/LehrenTV/12669275","LehrenTV","(2:17)");
Tất cả các hình ảnh không có trong "img" tags..I cũng muốn trích xuất hình ảnh mà không phải là ngay cả với trong "img" thẻ như trong nguồn HTML trên.
Làm thế nào tôi có thể làm điều này ..? Xin hãy giúp tôi về vấn đề này .. Cảm ơn
Tại sao lại là Java? Bạn có nghĩ đến việc phát triển plugin trình duyệt không? – fglez
Hoặc thực hiện proxy để lưu mọi hình ảnh? –