Làm cách nào để trích xuất văn bản từ tệp pdf hoặc từ (xóa hình ảnh đậm, hình ảnh và định dạng văn bản đa dạng thức khác) trong C#?Trích xuất văn bản từ pdf và các tệp từ
Trả lời
Bạn có thể sử dụng các bộ lọc được thiết kế cho/sử dụng bởi dịch vụ lập chỉ mục. Chúng được thiết kế để trích xuất văn bản thuần túy ra khỏi các tài liệu khác nhau, rất hữu ích cho việc tìm kiếm bên trong tài liệu. Bạn có thể sử dụng nó cho các tệp Office, PDF, HTML và vv, về cơ bản là bất kỳ loại tệp nào có bộ lọc. Nhược điểm duy nhất là bạn phải cài đặt các bộ lọc này trên máy chủ, vì vậy nếu bạn không có quyền truy cập trực tiếp vào máy chủ thì điều này có thể không thực hiện được. Một số bộ lọc được cài đặt sẵn với Windows, nhưng một số bộ lọc, như PDF, bạn phải tự cài đặt. Để triển khai C#, hãy xem bài viết này: Using IFilter in C#
Đối với PDF cậu hãy nhìn vào TallPDF
Ngoài ra kiểm tra này: http://www.codeproject.com/KB/files/PDF_to_TEXT.aspx
Sử dụng Lời mô hình đối tượng, đó là cách đáng tin cậy duy nhất kể từ khi định dạng Word không mở cửa và thay đổi từ phiên bản lên phiên bản.
Nhưng làm thế nào? Đây là một phản ứng vô ích mà không có mẫu mã. – KyleM
PDF:
Bạn có các tùy chọn khác nhau.
pdftotext:
Tải XPDF utilities. Trong tệp .zip có nhiều tiện ích dòng lệnh khác nhau. Một là pdftotext(.exe)
. Nó có thể trích xuất tất cả nội dung văn bản từ một tệp PDF hoạt động tốt. Nhập pdftotext -help
để tìm hiểu về một số nếu tham số dòng lệnh của nó.
Ghostscript:
Cài đặt latest version of Ghostscript (v.8.71). Ghostscript là một trình thông dịch PostScript và PDF. Bạn cũng có thể sử dụng nó để trích xuất văn bản từ một PDF:
gswin32c.exe^
-q^
-sFONTPATH=c:/windows/fonts^
-dNODISPLAY^
-dSAFER^
-dDELAYBIND^
-dWRITESYSTEMDICT^
-dSIMPLE^
-f ps2ascii.ps^
-dFirstPage=3^
-dLastPage=7^
input.pdf^
-dQUIET
Văn bản này sẽ xuất ra trên trang 3-7 của input.pdf
để xuất dữ liệu. Bạn có thể chuyển hướng tệp này đến tệp bằng cách gắn thêm > /path/to/output.txt
vào lệnh. (Kiểm tra để đảm bảo rằng chương trình tiện ích PostScript ps2ascii.ps
có trong thư mục con của bạn là lib
Ghostscript.)
Nếu bạn bỏ qua tham số -dSIMPLE
, đầu ra văn bản sẽ đoán ngắt dòng và khoảng cách từ. Để biết chi tiết, hãy xem các nhận xét bên trong chính tệp ps2ascii.ps
. Bạn thậm chí có thể thay thế thông số đó bằng -dCOMPLEX
để nhận thêm thông tin định dạng văn bản.
XPDF hoạt động tốt hơn bất cứ điều gì tôi đã tìm thấy – chrisfs
Bạn có thể muốn xem PDFBox. Đây là một liên kết đến trang Code Project cho bạn biết cách sử dụng nó trong C# cũng như các bình luận hữu ích khác.
http://www.codeproject.com/KB/string/pdf2text.aspx
Đối với Lời đề nghị của việc sử dụng mô hình đối tượng Word là có lẽ là chính xác nhất.
Docotic.Pdf library có thể được sử dụng để trích xuất văn bản từ tệp PDF.
Thư viện có thể extract plain text and text with formatting. Ngoài ra, một collection of words hoặc các ký tự có hình chữ nhật giới hạn có thể được truy xuất bằng API của thư viện.
Tuyên bố từ chối trách nhiệm: Tôi làm việc cho nhà cung cấp thư viện.
- 1. Trích xuất văn bản từ PDF
- 2. C# Trích xuất văn bản từ PDF bằng PdfSharp
- 3. trích xuất văn bản từ pdf trong Javascript
- 4. Trích xuất các danh từ và động từ văn bản
- 5. Trích xuất tiêu đề từ tệp PDF?
- 6. Trích xuất URL từ các tệp văn bản/HTML lớn
- 7. trích xuất văn bản từ tex, xóa các thẻ latex
- 8. Trích xuất văn bản và văn bản hình chữ nhật tọa độ từ tệp Pdf bằng itextsharp
- 9. Trích xuất văn bản từ các URL bằng TIKA
- 10. Trích xuất văn bản từ HTML Java
- 11. Cách trích xuất URL từ văn bản
- 12. Làm cách nào để trích xuất văn bản từ tệp PDF trong Perl?
- 13. Trích xuất văn bản từ tệp pdf bằng cách sử dụng javascript
- 14. Trích xuất JSON từ văn bản
- 15. Làm cách nào để trích xuất văn bản từ tệp PDF bằng Python?
- 16. trích xuất các từ từ một tệp
- 17. Trích xuất xdp hoặc xfa từ PDF
- 18. Trích xuất văn bản PDF đơn giản trên Android?
- 19. Trích xuất văn bản Itextsharp
- 20. pyPdf không thể trích xuất văn bản từ một số trang trong PDF
- 21. Phương pháp trích xuất văn bản PDF Sử dụng OCR
- 22. Trích xuất hình ảnh và từ có tọa độ và kích thước từ PDF
- 23. Cách tốt nhất để trích xuất văn bản từ tệp văn bản 1.3GB bằng PHP?
- 24. Trích xuất văn bản PDF bằng cách sử dụng iText
- 25. sed/awk: Trích xuất mẫu từ luồng văn bản
- 26. Trích xuất văn bản nội dung từ Email PHP
- 27. Trích từ danh từ văn bản (Java)
- 28. Trích xuất các cụm từ khóa từ văn bản (1-4 từ ngram)
- 29. Trích xuất cột đầu tiên và cuối cùng từ tệp văn bản
- 30. Trích xuất đường dẫn từ canvas html văn bản
Đó là * chính xác * những gì tôi cần. Cảm ơn! –