2010-03-05 40 views
9

Điều tôi cần là đọc pdf, thực hiện một số phép chuyển đổi (tạo dấu trang TOC) và ghi lại.Haskell: phân tích cú pháp PDF

tôi thấy http://hackage.haskell.org/package/HPDF này, nhưng nó chỉ đề cập đến việc tạo pdf, không phải là phân tích cú pháp (mặc dù tôi có thể đã bỏ lỡ nó)

Haskell được chọn hoàn toàn là (tự) mục đích giáo dục.

+0

Trước khi bạn thậm chí có thể đoán có bao nhiêu công việc liên quan đến việc viết trình phân tích cú pháp PDF, bạn phải mua thông số ISO cho CHF380 (khoảng £ 243 hoặc $ 353). Tôi nghi ngờ điều này đặt mọi người đi. –

+3

Bằng cách nào đó nó dường như không ngừng ruby ​​/ perl người ví dụ. – artemave

+4

Bạn có thể tải xuống một công ty miễn phí về thông số PDF từ trang web của Adobe: http://www.adobe.com/devnet/pdf/pdf_reference.html Họ lưu trữ phiên bản không chính thức của thông số ISO, nhưng nội dung chính xác giống nhau. – Rowan

Trả lời

4

Có một vài công cụ để thao tác PDF, mặc dù họ dường như xu hướng thiên về thế hệ, chứ không phải là phân tích cú pháp:

Pandoc là một thư viện đánh dấu chéo tuyệt vời, nhưng không hỗ trợ phân tích cú pháp PDF (nó hỗ trợ tạo PDF từ nhiều định dạng khác nhau).

Ngoài ra còn có:

Tôi không chắc chúng tôi có một công cụ phân tích cú pháp tốt.

2

Cũng như một bài tập học tập, tôi đã bắt đầu một thư viện phân tích cú pháp PDF trong Haskell, nhưng nó không đầy đủ và đã không hoạt động một chút do thiếu sự chú ý. Tôi rất sẵn lòng chia sẻ với bạn và sẽ yêu thích phản hồi, cải tiến, v.v. Hiện tại, nó không được lưu trữ trên hackage, nhưng nếu bạn quan tâm đến việc triển khai không đầy đủ, hãy cho tôi biết và tôi sẽ hỏi một số đồng nghiệp để được tư vấn về việc đưa nó lên đó.

+0

Tôi còn quá cơ sở cho một nhiệm vụ như vậy. Nhưng dù sao thì, tôi sẽ ghi nhớ điều này trong tương lai. – artemave

+0

Tôi rất sẵn lòng làm việc với bạn.Trạng thái hiện tại của nó là nó lấy một tệp PDF và tạo ra một biểu diễn giống như AST, có thể được thao tác. Tôi cũng đã có một máy in khá AST tạo ra một tập tin PDF hợp lệ. –

+1

Ngoài ra, tôi dường như không thể nhận xét về "waah, thông số kỹ thuật ISO PDF là đắt", nhưng tôi thấy các tài liệu miễn phí tại đây: http://www.adobe.com/devnet/pdf/ là đủ cho Nhu cầu phân tích cú pháp PDF. –

0

Thanh toán thư viện pdf-toolbox. Nó hỗ trợ cho việc tạo tập tin PDF là low level, nhưng đủ mạnh cho công việc của bạn.

Here là ví dụ về cách thay đổi tiêu đề của tệp PDF hiện có bằng tính năng cập nhật gia tăng.

Các vấn đề liên quan