2011-11-14 61 views
21

Có .dll không. Tôi có thể sử dụng tệp .pdf nào dưới dạng tệp nhập liệu và tệp .html làm đầu ra? Tôi muốn chuyển đổi .pdf thành .html. Đồng nghiệp của tôi nói rằng nó rất khó đi từng bước, nhận được văn bản/font/hình ảnh/lề/liên kết vv từ pdf và sau đó tạo tập tin html mới với cùng một nội dung. Anh ta nói nó gần như không thể. Vì vậy, tôi đã suy nghĩ - nếu có một số dll mà tôi có thể sử dụng như một tài liệu tham khảo để làm điều đó?C# chuyển đổi pdf sang html

+0

Rất phức tạp, nhưng tại sao bạn muốn? –

+0

có một số công cụ chuyển đổi html sang pdf mà các nhà cung cấp cung cấp, nhưng tôi không thấy bất kỳ pdf nào sang html. Vì tôi không biết phiên bản đầy đủ có thể xuất sang html, bạn nên kiểm tra điều này trước tiên và xem kết quả. Sau đó, có lẽ bạn có thể nhận ra một số công việc hàng loạt sử dụng acrobat để làm điều đó. Chỉ cần một ý tưởng ... – YvesR

+1

Tìm kiếm trên web cho "chuyển đổi pdf sang html" sẽ thu thập nhiều giải pháp khả thi. SO không phải là một nơi tốt cho đề xuất sản phẩm, do đó bỏ phiếu để đóng là "không xây dựng". – Richard

Trả lời

8

Viết chương trình để làm điều đó chắc chắn không hề nhỏ nhặt. Nếu bạn không tìm thấy bất kỳ Thư viện .NET nào để làm điều này (tôi không thể, ít nhất là không miễn phí), tôi chỉ cần download this và gọi nó theo lập trình để lấy html của tôi.

Nếu bạn có thời gian rảnh rỗi và/hoặc PDFToHtml không tạo ra sản lượng chấp nhận được cho bạn, bạn có thể use iText để tự mình viết chương trình. Đó là một thư viện pdf miễn phí rất trưởng thành. Tôi đã sử dụng nó trong quá khứ để thao tác các tệp PDF (hợp nhất, tạo, v.v.).

CẬP NHẬT

Như đã đề cập trong các bình luận bởi tình thế khó khăn, thư viện PDFSharp cung cấp một giấy phép thoải mái hơn (MIT) so với giấy phép thương mại hoặc AGPL được cung cấp bởi iText. Hãy nhớ điều này khi chọn thư viện của bạn. Tôi đã không sử dụng thư viện PDFSharp bản thân mình và tôi không biết làm thế nào họ so sánh về chức năng.

+1

Nếu ai làm điều này, sử dụng pdfsharp tốt hơn, nó có giấy phép tốt hơn. –

+4

Trên PDFSharp FAQ họ nói rằng thư viện của họ không chuyển đổi PDF sang HTML và họ không có kế hoạch hỗ trợ nó. http://www.pdfsharp.net/wiki/pdfsharpfaq.ashx#Can_I_use_PDFsharp_to_convert_PDF_to_Word_RTF_HTML_11 –

6

Bạn có thể tải công cụ miễn phí này: PDFToHTML

Sau đó, trong chương trình của bạn chỉ ngã ba một quá trình mới và chạy tập tin thực thi đi qua các tập tin PDF. Tôi chỉ thử nghiệm nó bây giờ và nó có vẻ làm việc ok.