Chúng tôi đang sử dụng iTextSharp với ứng dụng C# WinForms để phân tích cú pháp tệp PDF. Sử dụng iTextSharp, tôi có thể dễ dàng trích xuất dữ liệu văn bản từ tập tin PDF. Giả sử tệp PDF chứa hình ảnh được bao quanh bởi hai dòng văn bản. Trong trường hợp này, tôi không thể trích xuất thông tin về hình ảnh.Có thể lấy các yếu tố cấu trúc từ một tệp PDF bằng iTextSharp không?
yêu cầu của tôi là:
- Nhận yếu tố cấu trúc của tập tin PDF
- Process xem mỗi là loại văn bản, hình ảnh, bảng hoặc khác
Ví dụ, các yếu tố cấu trúc là tương tự như sau:
text :paragraph1
text :paragraph2
Image:Image
text :paragraph3
Table:table info
text :Paragraph4
Nếu tôi có thể lấy thông tin trong một định dạng như thế này, tôi có thể dễ dàng hiểu được thông tin văn bản, hình ảnh, bảng, đầu trang hoặc chân trang.
Vì vậy, có thể lấy loại thông tin này bằng iTextSharp không? Nếu có, xin vui lòng khai sáng cho tôi về điều này. Nếu không, bạn có thể đề nghị một số công cụ khác có khả năng đáp ứng yêu cầu này không?
Nhờ tất cả,
Saravanan
có thể trùng lặp của http://stackoverflow.com/questions/5945244/extract-image-from-pdf-using-itextsharp – emd
Điều này có cụ thể đối với C# 4.0 không? –
@ Ryan Gates: Có ... Đó là cho C# 4.0 – Saravanan