Có một vài cách bạn có thể truy cập tại đây - rất nhiều điều sẽ tùy thuộc vào việc bạn có muốn giữ lại sự hình thành (ví dụ, đoạn văn và các yếu tố bố cục khác) của PDF gốc hay không.
Nếu bạn đang xem xét các giải pháp thương mại, chúng tôi cung cấp hai sản phẩm có thể đáp ứng yêu cầu của bạn. Một là EasyPDF SDK có các cú gọi đơn ExtractText() và ExtractText2() để kéo văn bản ra khỏi tệp PDF dưới dạng văn bản thuần túy.
Lưu ý rằng đầu ra từ các cuộc gọi này khá đơn giản và bạn sẽ mất rất nhiều yếu tố bố cục ban đầu. Chúng tốt cho việc trích xuất văn bản đơn giản nhưng có thể không tuyệt vời nếu tệp PDF của bạn chứa dữ liệu dạng bảng.
Nếu bạn đang xử lý các bảng, thay thế đẹp hơn có thể là kéo nó ra thành văn bản đa dạng thay thế. Chúng tôi có một công cụ được gọi là EasyConverter SDK hướng đến các tài liệu kinh doanh mà chỉ sử dụng một cuộc gọi chức năng duy nhất.
Với EasyConverter SDK, bố cục của tệp PDF ban đầu của bạn sẽ được giữ lại.
Cả hai hỗ trợ C# nên cảm thấy tự do để kiểm tra các phiên bản eval tại www.pdfonline.com nếu bạn quan tâm. Tôi làm việc cho nhà cung cấp vì vậy hãy thực hiện đề nghị này như một người mẹ yêu con của mình :-) Tôi đã duyệt stackoverflow.com cho đoạn mã trong một thời gian dài, nhưng chỉ mới bắt đầu đăng bài, vì vậy nếu bạn có bất kỳ câu hỏi nào có API chỉ cho tôi biết và tôi có thể trợ giúp. Chúc mừng!
Nguồn
2009-11-02 18:55:24
+1 miễn phí là tốt. –