2015-06-19 22 views
5

Tôi có pdf với hình mờ ở nền của nó. Khi bắt đầu quét để làm nổi bật bất kỳ từ nào có hình mờ hoặc chú thích ở nền, nó sẽ được chọn khi nó được tìm thấy đầu tiên trong vùng cảm ứng.

Tôi đang sử dụng CGPDFScanner để quét văn bản.

Câu hỏi của tôi là cách phát hiện nếu văn bản được quét là văn bản ở chế độ nền hoặc văn bản thực trong PDF? Làm cách nào để phân biệt giữa văn bản chuẩn và văn bản chú thích?iOS - Phân biệt giữa văn bản nền (hình mờ) và văn bản thực trong PDF

Cảm ơn.

+1

Rất tiếc, tôi không thể tải xuống tệp PDF của bạn, tôi nhấn nút trên trang của dịch vụ chia sẻ tệp nhưng trang chỉ làm mới. Tuy nhiên, điều đó đang được nói, bạn nói chung không có cơ hội để phân biệt giữa văn bản "nền" và "thực". Trong trường hợp các tệp * được gắn thẻ * mà bạn có thể có cơ hội, công viên nước có thể được gắn thẻ là dữ liệu tạo tác. – mkl

+0

@mkl: vui lòng chuyển nhận xét của bạn thành câu trả lời thực sự để nhận được ý kiến ​​của tôi. :-) –

+0

@mkl Xin lỗi tôi sẽ chia sẻ lại tệp. – Swaroop

Trả lời

3

Nói chung, bạn không có cơ hội phân biệt đáng tin cậy giữa văn bản "nền" và "thực". Văn bản được vẽ ở đâu đó trên trang theo một thứ tự nào đó, và nền trước, nền, văn bản bình thường, ..., là vấn đề nhận thức của con người và có thể không được phản ánh trong cấu trúc của luồng nội dung PDF.

Bạn có thể thử một số phỏng đoán được giáo dục, ví dụ: giả sử rằng văn bản "thực" có màu sắc mạnh trong khi văn bản nền có màu sáng hơn hoặc văn bản "thực" được sắp xếp theo đường ngang trong khi văn bản nền thường có đường chéo hơn, v.v. Nhưng đây là phỏng đoán sau khi tất cả, không có gì để dựa vào chắc chắn rồi.

Mặt khác, trong trường hợp các tệp PDF được gắn thẻ, bạn có thể có cơ hội, hình mờ có thể được gắn thẻ dưới dạng dữ liệu tạo tác.

PS Tôi vừa thấy bạn đã chia sẻ lại tệp của bạn. Trong trường hợp của tài liệu của bạn các heuristics tôi đã đề cập sẽ làm việc, các văn bản nền là màu xám và in theo đường chéo.

Vì vậy, trong khi quét, bạn phải theo dõi màu tô và/hoặc ma trận chuyển đổi. Ngay sau khi máy quét tìm thấy văn bản, bạn biết đó là nền hay nền trước dựa trên giá trị màu và/hoặc ma trận hiện tại.

Lưu ý rằng, không dễ dàng với tất cả tài liệu.

+0

Cảm ơn bạn đã trả lời :). Tôi nghĩ về một phỏng đoán dựa trên chiều cao và chiều rộng của văn bản của watermark. Nó có thể là một trong những heuristics phải không? Trong khi quét, hình ảnh Tôi nhận được cho văn bản đó đang lấy 3/4 của trang để tôi có thể quyết định bỏ qua trên cơ sở đó đúng không? Hoặc nó có thể đi sai? – Swaroop

+0

Đó cũng là một quy tắc heuristics khác. Nhưng lưu ý, phỏng đoán là phỏng đoán sau khi tất cả và sẽ thất bại mỗi một lần trong một thời gian. – mkl

+0

Được rồi .. Cảm ơn rất nhiều vì đã giúp đỡ. :) – Swaroop

Các vấn đề liên quan