Cách đọc tệp PDF và đưa nội dung vào chuỗi? Sử dụng ngôn ngữ PHP.Chuyển đổi PDF thành chuỗi
Trả lời
Bạn có thể tìm thấy hướng dẫn này hữu ích: http://www.webcheatsheet.com/php/reading_clean_text_from_pdf.php
Bạn có thể sử dụng giống như pdftotext mà đi kèm với các gói xpdf trên Linux. Lệnh popen sau đó có thể được sử dụng để dẫn đầu ra của pdftotext vào một chuỗi:
$mystring = "";
$fd = popen("/usr/bin/pdftotext blah.pdf","r");
if ($fd) {
while (($myline = fgets($fd)) !== false) {
$mystring .= $myline;
}
}
Tải xuống liên kết cho xpdf: https://www.xpdfreader.com/download.html và liên kết tới popen: http://php.net/manual/en/function.popen.php – kurdtpage
Tìm thấy lớp học thực sự tuyệt vời này! Hơn nữa, bạn có thể thêm chức năng để phù hợp với nhu cầu của bạn.
Có lẽ chúng sẽ giúp bạn thêm chức năng:
Nếu nó không hoạt động, hãy kiểm tra xem bạn có thể đánh dấu/đánh dấu văn bản của mình khi mở trong Adobe Reader (nếu bạn không thể, văn bản trong tệp của bạn có thể được lưu dưới dạng đường cong hình học), kiểm tra mã hóa.
Cài đặt APACHE-TIKA trên máy chủ của bạn. APACHE-TIKA hỗ trợ nhiều tệp pdf hơn. Cài đặt hướng dẫn: http://www.acquia.com/blog/use-apache-solr-search-files
và thức mã thật đơn giản:
$string = "";
$fd = popen("java -jar yourpathtotika/tika-app-1.3.jar -t yourpathtopdf/sample.pdf","r");
while (!feof($fd)) {
$buffer = fgets($fd, 4096);
$string .= $buffer;
}
echo $string;
Bạn có thể sử dụng lớp PHP mà có sẵn ở đây:
Đây là một văn bản PDF phạm vi công cộng vắt hoàn toàn được viết bằng PHP thuần túy, có nghĩa là bạn không cần phải dựa vào các lệnh bên ngoài. Nó cung cấp một giao diện đơn giản để truy xuất văn bản:
include ('PdfToText.phpclass') ;
$pdf = new PdfToText ('mysample.pdf') ;
echo "PDF contents are : " . $pdf -> Text . "\n" ;
- 1. Chuyển đổi UIImage thành Tệp PDF
- 2. Chuyển đổi EPS/PDF thành JPEG/PNG?
- 3. Chuyển đổi pixel thành điểm cho pdf
- 4. Chuyển đổi chuỗi thành System.IO.Stream
- 5. Chuyển đổi chuỗi thành Enum?
- 6. Chuyển đổi chuỗi thành BigInteger
- 7. Chuyển đổi SVGSVGElement thành Chuỗi
- 8. Chuyển đổi vectơ thành chuỗi
- 9. chuỗi chuyển đổi thành mảng
- 10. Chuyển đổi JsValue thành Chuỗi
- 11. Chuyển đổi LPWSTR thành chuỗi
- 12. Chuyển đổi chuỗi thành GregorianCalendar
- 13. Chuyển đổi HtmlDocument.DomDocument thành chuỗi
- 14. Chuyển đổi chuỗi thành char
- 15. Chuyển đổi System.Array thành chuỗi []
- 16. Chuyển đổi null thành chuỗi
- 17. Chuyển đổi chuỗi đầu vào thành chuỗi XML trong java
- 18. chuyển đổi mảng chuỗi thành chuỗi
- 19. Chuyển đổi chuỗi unicode thành chuỗi byte
- 20. Chuyển đổi NULL thành chuỗi rỗng - Chuyển đổi không thành công khi chuyển đổi từ chuỗi ký tự thành uniqueidentifier
- 21. Chuỗi chuyển đổi PHP thành hex và hex thành chuỗi
- 22. Chuyển đổi PDF thành PNG trong suốt với GhostScript
- 23. Chuyển đổi Markdown + CSS thành .doc hoặc .pdf
- 24. Chuyển đổi các trang PDF thành JPG trên Java-GAE
- 25. Chuyển đổi dữ liệu có thể định dạng thành PDF
- 26. Imagemagick chuyển đổi nhiều hình ảnh thành kích thước pdf
- 27. Chuyển đổi PDF thành văn bản khả thi bằng C#
- 28. Chuyển đổi PDF nhiều trang thành một hình ảnh
- 29. chuyển đổi pdf với bitmap 300dpi thành svg
- 30. Linux: Tiện ích dòng lệnh Chuyển đổi RTF thành PDF?
Sử dụng ['file_get_contents'] (http://de3.php.net/manual/en/function.file-get-contents.php) nếu bạn cần dữ liệu nhị phân thô hoặc cập nhật câu hỏi của bạn và cho chúng tôi biết những gì bạn thực sự muốn. –
Tôi cần có văn bản rõ ràng từ các tệp pdf. Khi tôi nhận được văn bản từ các tập tin pdf tôi cần chèn văn bản này trong DB. – lolalola