2011-11-21 34 views
5

Tôi có tệp PDF tiếng Ả Rập và có vẻ như có lỗi trong mã hóa của nó.Sửa mã hóa PDF

Khi tôi cố gắng tìm kiếm trong PDF cho từ bên trong nó, nó đã không tìm thấy kết quả

khi tôi cố gắng để xuất khẩu các nội dung pdf sang Excel sử dụng các chương trình khác, nó xuất dữ liệu trong một bảng mã lạ

Khi tôi sao chép dữ liệu trong PDF sang notepad, Notepad hiển thị mã hóa lạ.

Tôi đang phát triển giải pháp sẽ sử dụng các tệp PDF này (khoảng 950 tệp) vì vậy tôi phải tìm cách sửa mã hóa.

Cảm ơn trước Advance

+0

Bạn có thể chia sẻ liên kết tới một trong các tệp của mình không? – Bobrovsky

Trả lời

1

Tuyên bố từ chối: Tôi chưa bao giờ chỉnh sửa tệp tiếng Ả Rập.

Bạn đã xuất nội dung .pdf sang Excel như thế nào?

Bạn không thể trực tiếp mở một file .pdf không phải với Word/Excel/Wordpad hay Notepad, rằng lạ mã hóa bạn nhìn thấy có lẽ hầu hết là mã hóa cụ thể của một tài nguyên phông chữ được chọn.

Bạn có thể sử dụng công cụ this này để phát hiện mã hóa

nhưng tôi thực sự khuyên bạn nên đọc tối thiểu về Unicode and Character Sets

Từ đó trở đi, xem xét số lượng các tập tin có liên quan, một tốt giải pháp có vẻ là PyODConverter

Đối với số lượng tệp nhỏ hơn, Free PDF to Word Converter sẽ xử lý ne của bạn eds:

+0

Kính gửi Joao, Vấn đề chính của tôi là sửa tập tin PDF, khi tôi mở nó trong bất kỳ trình đọc PDF nào tôi có thể đọc nó dễ dàng nhưng khi tôi tìm kiếm bất kỳ từ nào tôi thấy nó "không tìm thấy kết quả" –

+1

Nhưng bạn đã xác nhận mã hóa những .pdf đang sử dụng? Kiểm tra câu hỏi này, có thể nó sẽ đưa bạn đi đúng hướng: http://superuser.com/questions/119393/search-pdfs-with-non-standard-character-encodings –

+0

có điều này là chính xác tình hình của tôi, Cảm ơn –