2009-10-31 50 views
5

Có thư viện nào có lớp để trích xuất văn bản từ tệp pdf trong C# .net không? Tôi đã thử một vài nhưng tài liệu là khủng khiếp, vì vậy tôi đã không thể có được nó ra khỏi mặt đất. Ngoài ra nếu nó cung cấp một lớp để trích xuất hình ảnh đó sẽ là một cộng. Bất kỳ đề xuất? Thx trước.Chuyển đổi PDF thành văn bản khả thi bằng C#

Ngoài ra tôi cần có khả năng triển khai nó vào một ứng dụng hiện có.

Trả lời

3

Bạn đã thử PDFKit.NET chưa? Nó có tài liệu hợp lý và một số ví dụ tốt. Nó được thiết kế cho một môi trường máy chủ, do đó, nó là một ít tốn kém.

EDIT Đây là thư viện nguồn mở trên SourceForge có tên là iTextSharp. Nó miễn phí cho các dự án mã nguồn mở. Tôi đã không sử dụng nó, nhưng có vẻ đầy hứa hẹn. Here is a tutorial cho nó có nhiều ví dụ mã.

+1

+1 miễn phí là tốt. –

0

chúng tôi đã sử dụng phần mềm đi tuyết tại nơi làm việc để chuyển đổi hình ảnh. nó dường như cũng hỗ trợ text extraction. tuy nhiên, nó không miễn phí.

+0

không chắc chắn tại sao liên kết này không hoạt động. nhưng bạn có thể truy cập snowbound.com -> giải pháp -> trích xuất văn bản –

1

Có một vài cách bạn có thể truy cập tại đây - rất nhiều điều sẽ tùy thuộc vào việc bạn có muốn giữ lại sự hình thành (ví dụ, đoạn văn và các yếu tố bố cục khác) của PDF gốc hay không.

Nếu bạn đang xem xét các giải pháp thương mại, chúng tôi cung cấp hai sản phẩm có thể đáp ứng yêu cầu của bạn. Một là EasyPDF SDK có các cú gọi đơn ExtractText() và ExtractText2() để kéo văn bản ra khỏi tệp PDF dưới dạng văn bản thuần túy.

Lưu ý rằng đầu ra từ các cuộc gọi này khá đơn giản và bạn sẽ mất rất nhiều yếu tố bố cục ban đầu. Chúng tốt cho việc trích xuất văn bản đơn giản nhưng có thể không tuyệt vời nếu tệp PDF của bạn chứa dữ liệu dạng bảng.

Nếu bạn đang xử lý các bảng, thay thế đẹp hơn có thể là kéo nó ra thành văn bản đa dạng thay thế. Chúng tôi có một công cụ được gọi là EasyConverter SDK hướng đến các tài liệu kinh doanh mà chỉ sử dụng một cuộc gọi chức năng duy nhất.

Với EasyConverter SDK, bố cục của tệp PDF ban đầu của bạn sẽ được giữ lại.

Cả hai hỗ trợ C# nên cảm thấy tự do để kiểm tra các phiên bản eval tại www.pdfonline.com nếu bạn quan tâm. Tôi làm việc cho nhà cung cấp vì vậy hãy thực hiện đề nghị này như một người mẹ yêu con của mình :-) Tôi đã duyệt stackoverflow.com cho đoạn mã trong một thời gian dài, nhưng chỉ mới bắt đầu đăng bài, vì vậy nếu bạn có bất kỳ câu hỏi nào có API chỉ cho tôi biết và tôi có thể trợ giúp. Chúc mừng!

1

Docotic.Pdf library có thể trích xuất văn bản và hình ảnh từ tệp PDF.

Bạn chỉ có thể trích xuất văn bản từ toàn bộ tài liệu từ một số trang. Thư viện có thể trích xuất văn bản thuần túy và cũng là khối văn bản có tọa độ.

Bạn có thể trích xuất hình ảnh từ tệp PDF (dưới dạng tệp JPEG và TIFF).

Dưới đây là một vài mẫu cho nhiệm vụ của bạn:

Disclaimer: Tôi làm việc cho Miracle Bit, nhà cung cấp của thư viện.

Các vấn đề liên quan