OPTION 1
Bạn có thể kiểm Goose. Nó thực hiện một cái gì đó tương tự như những gì Pocket và Readability làm, tức là cố gắng trích xuất các bài viết chính từ một trang web nhất định bằng cách sử dụng một tập hợp các heuristics. Nó dường như cũng có thể trích xuất các hình ảnh chính từ bài viết đó, nhưng nó là một chút của một hit và bỏ lỡ, do đó, 60% thời gian nó hoạt động mọi lúc.
Nó từng là một dự án Java nhưng được viết lại thành Scala.
Từ readme
Goose sẽ cố gắng để trích xuất các thông tin sau:
- văn bản chính của một bài báo
- hình ảnh chính của bài viết
- Bất kỳ phim Youtube/Vimeo được nhúng trong bài viết
- Mô tả meta
- thẻ Meta
- Publish Date
Hãy thử nó ở đây: http://jimplush.com/blog/goose
OPTION 2
Bạn có thể sử dụng một wrapper Java (ví dụ GhostDriver) để chạy trình duyệt không đầu, như PhantomJS. Sau đó, tìm nạp trang web và tìm phần tử img
có kích thước lớn nhất. This GhostDriver test case cho biết cách truy vấn DOM cho các phần tử và nhận kích thước hiển thị của nó.
OPTION 3
Sử dụng thư viện như jsoup giúp bạn phân tích cú pháp HTML. Sau đó nhận giá trị từ thuộc tính src
từ tất cả các thẻ img
. Yêu cầu mỗi URL bạn tìm một hình ảnh và đo kích thước của chúng. Người có kích thước lớn nhất có thể là hình ảnh chính của trang web.
[jsoup] (http://jsoup.org/) .... – MadProgrammer