Tôi đã đọc nhiều về trích xuất và thư viện PDF (dưới dạng iText) nhưng tôi chưa tìm thấy giải pháp trích xuất hình ảnh và văn bản (có tọa độ) từ PDF.Trích xuất hình ảnh và từ có tọa độ và kích thước từ PDF
Nhiệm vụ là quét PDF với danh mục sản phẩm và trích xuất từng hình ảnh. Có một mã hình ảnh được in bên cạnh mỗi hình ảnh và cũng có một danh sách mã sản phẩm cho các sản phẩm được hiển thị trên hình ảnh.
Tôi biết rằng không có cách nào để trích xuất thông tin có cấu trúc từ PDF như thế này nhưng với tọa độ của tất cả các đối tượng hình ảnh và văn bản tôi có thể viết mã để xác định văn bản được liên kết. Sau đó, tôi có thể chia văn bản sử dụng một RegExp và tìm ra một mã sản phẩm là gì, một mã ảnh, vv
bạn có thể đề nghị một giải pháp tốt và làm việc cho công việc là gì?
Bạn đang nhắm mục tiêu một nền tảng/ngôn ngữ nhất định? Khi bạn nói "quét" để bạn có nghĩa là "nhìn qua" hoặc là bạn thực sự quét một đối tượng vật lý và sẽ có nhu cầu cần OCR khả năng? –
Cảm ơn bạn đã trả lời! tôi lập trình .NET. Bất kỳ thư viện nào có cổng .net đều tốt. nhưng tôi cũng biết JAVA như vậy trong extremis tôi có thể sử dụng một thư viện java. dù sao tôi không cần OCR. PDF của tôi chứa văn bản và hình ảnh. Văn bản được hiển thị trong luồng nội dung của tệp PDF vì vậy tôi sẽ có một số loại trình phân tích cú pháp/hiển thị chỉ cho tôi biết một Chuỗi nên được hiển thị trên một trang. tôi chỉ cần coords. – Alex