2011-01-19 30 views

Trả lời

1

Thử chạy "Preflight ..." trong Acrobat và chọn PDF Analysis -> List page objects, grouped by type of object.

Nếu bạn định vị các đối tượng văn bản trong danh sách kết quả, bạn sẽ thấy có giá trị vị trí (theo điểm) trong phần Text Properties -> * Font.

+0

có thể tìm vị trí x, y và chiều cao, chiều rộng của từng từ không? – raki

+0

@raki: Vị trí, kích thước ở ngay bên dưới, nhưng đó chỉ là một khối văn bản, có thể là bất kỳ văn bản tùy ý nào. Để có được kích thước từ riêng lẻ sẽ yêu cầu tính toán các số liệu phông chữ. Mục đích của những gì bạn đang làm là có thể có cách tiếp cận tốt hơn. – Orbling

4

Docotic.Pdf Library có thể làm điều đó. Xem C# mẫu dưới đây:

using (PdfDocument doc = new PdfDocument("your_pdf.pdf", "password_if_need")) 
{ 
    foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData()) 
     Console.WriteLine(textData.Position + " " + textData.Text); 
} 
1

TET, Toolkit Tiêu Khai thác từ các gia đình pdflib của sản phẩm có thể làm điều đó. TET có giao diện dòng lệnh, và nó là công cụ mạnh mẽ nhất trong tất cả các công cụ trích xuất văn bản mà tôi biết. (Nó thậm chí có thể xử lý ligature ...)

Geometry
Tết cung cấp số liệu chính xác cho các văn bản, chẳng hạn như vị trí trên trang, chiều rộng hình tượng, và văn bản chỉ đạo. Các khu vực cụ thể trên trang có thể bị loại trừ hoặc đưa vào trích xuất văn bản, ví dụ: để bỏ qua đầu trang và chân trang hoặc lề.

Các vấn đề liên quan