2011-06-23 23 views
6

Tôi có các tệp PDF chủ yếu là văn bản được định dạng đơn giản và tôi muốn phân tích văn bản bằng PHP. Tôi nhận ra rằng PDF là nhị phân vì vậy tôi cần một tiện ích hoặc thư viện để chuyển đổi nó thành văn bản.Làm cách nào để chuyển đổi PDF sang văn bản để tôi có thể phân tích văn bản đó bằng PHP?

Bất kỳ đề xuất nào?

+1

Bạn sẽ xem xét "tương đương" là gì? – Jon

+0

Ý của bạn là gì? Để lấy dữ liệu nhị phân của tệp PDF, 'file_get_contents()' sẽ hoạt động tốt. –

+0

Nếu bạn muốn chỉnh sửa tệp PDF, hãy xem câu hỏi này: http://stackoverflow.com/questions/7364/pdf-editing-in-php – Mike

Trả lời

4

tôi đã kết thúc bằng xpdf (trong đó bao gồm pdftotext). Điều này làm việc tuyệt vời và tôi sử dụng nó trong sản xuất để trích xuất văn bản từ hàng triệu tệp PDF được tải lên máy chủ của chúng tôi.

Dưới đây là quá trình cài đặt cho Linux CentOS:

  1. tải về phiên bản 3.03 từ đây: http://foolabs.com/xpdf/download.html
  2. tar -zxvf xpdfbin-linux-3.03.tar.gz (chiết xuất tar.gz)
  3. tạo thư mục cần thiết để cài đặt (một số hoặc tất cả các có thể tồn tại đã được)
    • sudo mkdir/usr/local/man/
    • sudo mkdir/usr/local/man/man1/
    • sudo mkdir/usr/local/man/man5/
    • sudo mkdir/usr/local/etc/xpdfrc/
  4. file di chuyển từ các thư mục được trích xuất (cd vào thư mục nơi xpdf chỉ được giải nén)
    • di chuyển tất cả các tập tin thực thi từ thư mục bin64 (xpdf, pdftotext ... tất cả các file) vào/usr/local/bin/
    • di chuyển tệp mẫu-xpdfrc đến/usr/local/etc/xpdfrc (điều này có thể được sử dụng như là)
    • di chuyển các trang thủ công từ thư mục tài liệu (* .1 đến/usr/local/man/man1/& * .5 đến/usr/local/man/man5 /)
  5. xpdf nên được cài đặt và sẵn sàng sử dụng
  6. bạn có thể xóa được tải về tar.tệp gz và thư mục mà tệp được giải nén
4

phần mềm của bên thứ ba có thể đổ nội dung văn bản của một Tệp PDF, ví dụ:

  • xdoc2txt (Windows-chỉ, được sử dụng trong các plugin WinMerge)
  • pdftotext, một phần của xpdf
Các vấn đề liên quan