2016-08-06 15 views
7

tôi đang cố gắng để đọc văn bản từ file pdf sử dụng iTextSharp sử dụng đoạn mã sau và gán vào một textbox (multiline) - (Windows Desktop App)đọc Toán Phương trình sử dụng iTextSharp

Lưu ý: Mã này hoạt động tốt .

public string ReadPdfFile(string fileName) 
     { 
      StringBuilder text = new StringBuilder(); 

      if (File.Exists(fileName)) 
      { 
       PdfReader pdfReader = new PdfReader(fileName); 

       for (int page = 1; page <= pdfReader.NumberOfPages; page++) 
       { 
        ITextExtractionStrategy strategy = new LocationTextExtractionStrategy(); 
        string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); 

        currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText))); 
        text.Append(currentText); 
       } 
       pdfReader.Close(); 
      } 
      return text.ToString(); 
     } 

NHƯNG tập tin pdf của tôi có một phương trình

enter image description here

và tất cả tôi nhận được là sản phẩm follwing

enter image description here

những gì có thể được bổ sung vào đây để đạt được văn bản sau đây? Bất kỳ loại trợ giúp nào cũng sẽ được đánh giá cao!

+0

Tôi đã bỏ phiếu tán thành câu hỏi này vì tôi thấy nó thú vị, nhưng tôi nghĩ điều này sẽ thực sự, thực sự khó khăn. Làm thế nào là pdf được tạo ra ở nơi đầu tiên? Bạn có thể chia sẻ nó? –

+4

Bạn đang hy vọng loại đầu ra nào? Biểu thức toán học của bạn không thể được thể hiện trong Mặt phẳng đa ngôn ngữ cơ bản. – usr2564301

+0

@amedeevangasse Vâng nó khá đơn giản. Kiểm tra phần mềm latex! Bạn cần phải kích hoạt chế độ toán học cho nó, nhập phương trình và nó cho bạn đầu ra ở định dạng pdf. –

Trả lời

1

Tôi đã sử dụng itextsharp và tôi chắc chắn 100% là không thể. Sự cố nằm trong định dạng pdf. Nó không chứa bất kỳ thẻ nào được đề cập đến một số văn bản. Pdf chứa đại diện đồ họa cụ thể của nội dung có vị trí của nó trên trang pdf. Không có OCR, thậm chí không thể phát hiện văn bản in đậm. Pdf không phải là định dạng tốt để phân tích cú pháp.

Vấn đề của tôi thậm chí còn dễ dàng hơn bạn và nó là địa ngục để đọc từ pdf. Nó chỉ là văn bản, nhưng nó được tạo thành 2 trang trong một (văn bản 2 cột). Itextsharp đọc nội dung theo tọa độ, vì vậy văn bản của tôi bị lẫn lộn khi đọc dòng đầu tiên của cột đầu tiên so với dòng đầu tiên của cột thứ hai (không phải là luồng văn bản). Đối với mủ cao su, sau khi mã latex được chuyển đổi sang pdf, không có sự đảo ngược với mã latex.

Các vấn đề liên quan