2010-09-30 24 views
7

thể trùng lặp:
Tool to compare large numbers of PDF files?Cách đáng tin cậy để (lập trình) so sánh các tệp PDF?

Tôi đang trong kịch bản cổ điển mà các doanh nghiệp cung cấp cho bạn một loạt các dạng pdf mới cho năm mới không có sửa đổi ghi nhận nào và bạn được cho là để tìm ra những gì khác với những năm trước.

Tôi đang nói nhiều biểu mẫu ở đây, vì vậy tôi đang cố gắng tìm cách so sánh các tệp PDF để phác thảo các khác biệt mà không cần mọi người tự duyệt qua từng và từng mẫu.

Ý tưởng của tôi là trích xuất tất cả văn bản từ tệp PDF và đổ nó vào tệp .txt rồi chạy sự khác biệt trên tệp văn bản, nhưng nghe có vẻ khủng khiếp.

Câu hỏi của tôi nói theo lập trình, nhưng tôi sẽ hài lòng với bất kỳ công cụ đáng tin cậy nào để so sánh các tệp PDF và chủ yếu tìm cách lấy ý tưởng từ trải nghiệm của mọi người. Cũng sẵn sàng giải trí mọi giải pháp có lập trình (tốt nhất là trong C# nhưng xin hãy chụp bất kỳ ý tưởng nào).

+0

Tại sao bản sao này lại trùng lặp? rõ ràng câu hỏi được đặt ra là làm thế nào để làm điều đó theo chương trình. Bất kỳ số lượng công cụ có thể cài đặt nào không phải là câu trả lời cho câu hỏi này. – Vin

Trả lời

8

Có khá nhiều sản phẩm phần mềm yêu cầu bản pdf khác. Tôi đã không bao giờ cần phải sử dụng một nhưng nếu điều này là có được một quá trình định kỳ tôi nghĩ rằng nó muốn được khôn ngoan cho công ty của bạn để đầu tư vào một trong số họ. Chỉ cần Google "pdf diff" cho một loạt các ứng dụng tiềm năng.

Ngoài ra, trường hợp của bạn rất giống với câu hỏi này: Tool to compare large numbers of PDF files? Tôi nghĩ rằng cuộc thảo luận của nó có thể hữu ích.

+0

cảm ơn vì điều đó - câu hỏi đó thực sự rất giống nhau (vì một số lý do không bật lên khi tôi soạn thảo của tôi). – JohnIdol

4

Tôi đã tiếp cận để lấy dữ liệu thô ra khỏi tệp PDF, sau đó sử dụng Word hoặc TortiseSVN hoặc WinMerge, v.v ... để xử lý phần so sánh. Trong trường hợp của tôi, tôi đã so sánh trong một RichTextBox trong C# ... tô màu sự khác biệt, vv ... vì chúng tôi muốn tất cả trong ứng dụng của chúng tôi.

Đây là những gì tôi đã làm ... PDF comparison vì tôi đang cố gắng so sánh các tài liệu hỗn hợp, Word và PDF.

Tuy nhiên tôi muốn giới thiệu PDFBox cho phân tích cú pháp, thanh lịch hơn một chút ... mặc dù iTextSharp làm việc ra ok ...

2

tôi đã viết một blog cho thấy một số phương pháp để so sánh file PDF cùng https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

+0

chuyển đổi pdf sang hình ảnh và sau đó so sánh và vẫn cần sự can thiệp của con người? Làm thế nào là hữu ích sau đó? – vsingh

+0

Phần mềm có thể cho bạn biết nếu chúng không thay đổi để bạn biết bạn không bị hỏng bất cứ thứ gì.Chỉ một con người mới có thể đánh giá bất kỳ thay đổi nào. –

7

tôi là nhà phát triển của Docotic.Pdf Library. Chúng tôi sử dụng so sánh PDF trong các bài kiểm tra đơn vị để kiểm tra xem thử nghiệm có tạo ra PDF như mong đợi hay không. PDF là tập hợp các đối tượng đặc biệt và chúng tôi so sánh tất cả các đối tượng PDF bỏ qua một số thuộc tính như ID đoạn giới thiệu và thông tin người tạo. Triển khai này hoạt động tốt.

Bạn có thể thử phương thức PdfDocument.DocumentsAreEqual. Phương pháp này chỉ cho bạn biết là tài liệu bằng nhau, không có sự khác biệt cụ thể. Bạn có thể liên hệ với chúng tôi nếu bạn cần thêm chức năng.

Các vấn đề liên quan