Tôi có một tệp PDF bao gồm văn bản và hình ảnh. Tôi muốn trích xuất hình ảnh từ PDF bằng cách sử dụng dòng lệnh linux. Tôi có thể sử dụng pdfimages
để trích xuất hình ảnh, nhưng tôi cũng muốn tìm vị trí trên mỗi trang có hình ảnh đó. pdfimages
có thể cho tôi biết trang của mỗi hình ảnh (từ tên tệp), tuy nhiên đó là tất cả những gì nó mang lại cho tôi. Có công cụ FLOSS nào khác có thể làm điều này không?Cho một tệp PDF, cách trích xuất hình ảnh * và vị trí của chúng trên trang * từ dòng lệnh?
Trả lời
Không có đảm bảo bằng PDF rằng nếu một hình ảnh được sử dụng lại thì đó sẽ không phải là một hình ảnh riêng biệt. Có rất ít siêu dữ liệu hình ảnh trong tệp PDF ngoài vị trí trang và kích thước thực tế trên trang. Tôi đã viết một bài báo giải thích cách hình ảnh được lưu trữ bên trong một tệp PDF tại http://www.jpedal.org/PDFblog/2010/09/understanding-the-pdf-file-format-images/
Vậy là có một cách dễ dàng để sử dụng lệnh/thư viện để giải nén mà vị trí trang? – Rory
Tôi nghĩ rằng tệp PDF phải chứa thông tin để đặt chúng, vì vậy điều này có thể thực hiện được. Mặt khác một giải pháp có thể ví dụ:
- Chuyển đổi mỗi trang pdf để một hình ảnh với
pdftoppm
- Trích xuất hình ảnh từ mỗi trang với
pdfimages
- Chuyển đổi hình ảnh vào một đơn 8-bit grey- kênh quy mô (để phân tích nhanh hơn) với phát hiện
cvCvtColor
- Object với
matchTemplate
Bước 1 có thể trông giống như Bước này 2:
for i in {0..99} ; do pdfimages -f $((i)) -l $((i+1)) file.pdf page$((i)); done
Bước 3 đây * một ví dụ đơn giản
Trong Bước 4 bạn sẽ không gặp vấn đề với đào tạo, bởi vì hình ảnh sẽ là một kết hợp chính xác. matchTemplate(imageToSearch, pdfPageImg, outputMap, 'CV_TM_SQDIFF')
(* - Liên kết loại bỏ như bây giờ dường như chỉ tay về phía một trang web ransomware)
Có một -xml
switch cho pdftohtml
lệnh mà sẽ cung cấp vị trí hình ảnh, kích thước và các thông tin nguồn.
pdftohtml -xml file.pdf
- 1. Trích xuất văn bản từ pdf và các tệp từ
- 2. Trích xuất tiêu đề từ tệp PDF?
- 3. Trích xuất hình ảnh và từ có tọa độ và kích thước từ PDF
- 4. Làm cách nào để bạn trích xuất hình ảnh từ tệp pdf bằng C#
- 5. cách thêm hình ảnh từ vị trí tệp WPF
- 6. Trích xuất văn bản và văn bản hình chữ nhật tọa độ từ tệp Pdf bằng itextsharp
- 7. Làm cách nào để trích xuất hình ảnh từ PDF bằng iText theo đúng thứ tự?
- 8. Đọc văn bản và vị trí hình ảnh (tọa độ xy) bằng cách sử dụng PDFBox
- 9. Trích xuất hình ảnh bằng iTextSharp
- 10. Phương pháp trích xuất vị trí từ văn bản?
- 11. Lấy một hình ảnh và vị trí của nó từ tệp excel bằng cách sử dụng Apache POI
- 12. Cách tìm và trích xuất hình ảnh "chính" trên trang web
- 13. Tìm vị trí của một chuỗi trong một tệp PDF và sau đó điều chỉnh nó
- 14. Đặt vị trí hình ảnh bằng iTextSharp
- 15. vim vị trí hình ảnh
- 16. trích xuất các từ từ một tệp
- 17. trích xuất hình ảnh từ pdf bằng cách sử dụng pdfbox
- 18. Tìm vị trí hình ảnh trên Excel
- 19. Xuất tệp hình ảnh từ một servlet
- 20. Trích xuất * hình ảnh * có liên quan từ một trang web
- 21. Cách trích xuất trang trình bày từ video bằng python
- 22. Trích xuất văn bản từ PDF
- 23. Trích xuất xdp hoặc xfa từ PDF
- 24. Trích xuất hình ảnh phụ từ một hình ảnh bằng cách sử dụng C#
- 25. hình ảnh Responsive vị trí trên hình ảnh
- 26. Trích xuất văn bản PDF đơn giản trên Android?
- 27. Làm cách nào để trích xuất hình ảnh từ video?
- 28. Dòng Twitter - vị trí VÀ từ khóa
- 29. Làm cách nào để chuyển đổi một loạt hình ảnh sang PDF từ dòng lệnh trên Linux?
- 30. Tham gia nhiều tệp PDF vào một trang PDF được định vị tham gia bằng cách sử dụng PHP
Không có địa điểm phần: http://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf –