2009-01-21 26 views
17

Tôi đang làm việc trên một cổng trực tuyến, nơi các nhà nghiên cứu có thể tải lên các tài liệu nghiên cứu của họ. Một yêu cầu là, tất cả các tệp PDF được lưu trữ ở định dạng PDF/A. Vì tôi không thể dựa vào người dùng để tạo tài liệu PDF/A phù hợp, tôi cần một công cụ để kiểm tra và chuyển đổi PDF chuẩn sang định dạng PDF/A.Chuyển đổi sang PDF/A và kiểm tra việc tuân thủ theo Linux

Công cụ tốt nhất mà bạn biết là gì?

  • Giá
  • Chất lượng
  • Speed ​​
  • API sẵn

công cụ nguồn mở sẽ được ưa thích, nhưng một tìm kiếm tiết lộ ai sánh kịp. iText có thể tạo PDF/a, nhưng việc chuyển đổi không dễ dàng, vì bạn phải đọc mọi trang và sao chép nó vào tài liệu mới, mất tất cả dấu trang và chú thích trong quá trình này. (Ít nhất là theo như tôi biết, nếu bạn biết một giải pháp dễ dàng, hãy cho tôi biết).

Cần có API cho PHP, Java hoặc công cụ dòng lệnh. Vui lòng không liệt kê giải pháp chỉ dành cho GUI hoặc Chỉ trực tuyến.

Trả lời

8

Tôi không chắc chắn rằng tất cả các mục tiêu của bạn có thể được thỏa mãn cùng một lúc. Câu chuyện xung quanh PDF/A phức tạp hơn nhiều so với chuyển đổi định dạng như tiff thành png.

  • Định dạng cơ bản là PDF 1.4: phải làm gì với các tài liệu có phiên bản cao hơn sử dụng các tính năng từ các phiên bản cao hơn? Thông tin có thể bị mất.
  • Trong cả PDF/A-1a và 1b, siêu dữ liệu ở định dạng XMP/RDF là bắt buộc. Nếu tài liệu gốc không có siêu dữ liệu, bạn sẽ phải lấy nó từ ở đâu đó và thêm nó. Ít nhất iText có thể làm điều đó.
  • Có rất nhiều chi tiết nhỏ để có được quyền, từ việc nhúng phông chữ để đảm bảo không gian có mặt thay vì chỉ có lệnh chuyển động ngang.

Tóm lại tất cả: Tôi nghĩ bạn nên đặt một số hoặc tất cả trách nhiệm tuân thủ nhà sản xuất tệp PDF. Tất nhiên, điều đó không có nghĩa là bạn không thể giúp họ: Nếu bạn tìm ra những công cụ mà đa số sử dụng để tạo ra các giấy tờ của họ, bạn có thể trỏ đến tài liệu về PDF/A và các công cụ cụ thể. (như một ví dụ cực đoan của tài liệu đó, hãy xem this)

Chúc bạn may mắn với những nỗ lực của bạn.

+0

liên kết dường như bị hỏng – castle1971

+0

Cảm ơn, tôi đã sửa liên kết. –

0

Tôi không chắc chắn về PDF/tài liệu, nhưng bạn đã xem xét jodconverter? Nó có thể chuyển đổi nhiều định dạng khác nhau cho bạn, và nó là mã nguồn mở. Chúng tôi sử dụng nó khá rộng rãi trong dự án của chúng tôi.

http://www.artofsolving.com/opensource/jodconverter

1

Các Open Office API project có thể là những gì bạn đang tìm kiếm. Kể từ 2.4 Open Office hỗ trợ PDF/tài liệu. Đây là code example từ trang web về cách chuyển đổi tài liệu, ví dụ này bằng Java.

3

Đối với phần nhận dạng bạn có thể thử Droid tool (Nhận dạng đối tượng bản ghi kỹ thuật số), cung cấp quyền truy cập vào Pronom technical registry (có chứa PDF/A).

8

Tôi từng làm việc cho Thư viện Quốc gia Pháp, để xây dựng một hệ thống lưu trữ đã thực hiện loại điều này. Như hầu hết trong số mười thư viện hàng đầu trên thế giới, chúng tôi đã sử dụng JHOVE để nhận dạng các định dạng tệp.

JHOVE có thể cho biết tệp có là PDF/A hay không và thậm chí có thể xác thực chúng. Nó cũng biết 7 loại PDF khác, xem the details.

JHOVE là mã nguồn mở, nó được JSTOR và Thư viện Đại học Harvard duy trì. Nó khá đơn giản để use.

Các vấn đề liên quan