Tôi có một số mã để đọc từ tệp pdf. Có cách nào để đọc từng dòng từ tệp pdf (không phải trang) bằng Pypdf, Python 2.6, trên Windows không?Cách đọc từng dòng trong tệp pdf bằng PyPdf?
Đây là đoạn mã để đọc các trang pdf:
import pyPdf
def getPDFContent(path):
content = ""
num_pages = 10
p = file(path, "rb")
pdf = pyPdf.PdfFileReader(p)
for i in range(0, num_pages):
content += pdf.getPage(i).extractText() + "\n"
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
Cập nhật:
Mã gọi là thế này:
f= open('test.txt','w')
pdfl = getPDFContent("test.pdf").encode("ascii", "ignore")
f.write(pdfl)
f.close()
yea, nhưng mà tôi có thể nhưng điều này trong tôi mã ,, bởi vì tôi không thể làm cho nó hoạt động ??? –
cùng một vấn đề, đây không phải là công việc nó cung cấp cho tôi toàn bộ trang ,, tôi chỉ muốn từng dòng :) –
mã này đã không làm việc .... pdf.getPage (i) .extractText() nó nhận được dữ liệu rỗng –