Tôi muốn viết một kịch bản để đổi tên các giấy tờ đã tải xuống với tiêu đề của chúng tự động, tôi tự hỏi liệu có bất kỳ thư viện hoặc thủ thuật nào tôi có thể sử dụng không? Các tệp PDF đều được tạo bởi TeX và phải có một số cấu trúc 'chính thức'.Trích xuất tiêu đề từ tệp PDF?
13
A
Trả lời
13
Bạn có thể thử sử dụng pyPdf và this example.
ví dụ:
from pyPdf import PdfFileWriter, PdfFileReader
def get_pdf_title(pdf_file_path):
with open(pdf_file_path) as f:
pdf_reader = PdfFileReader(f)
return pdf_reader.getDocumentInfo().title
title = get_pdf_title('/home/user/Desktop/my.pdf')
2
Tôi có thể bắt đầu với perl (nhìn thấy nó luôn là thứ đầu tiên tôi tiếp cận). Có several modules for handling PDFs. Nếu bạn có một cấu trúc nhất quán, bạn có thể sử dụng regex để snag các tiêu đề.
2
0
Giả sử tất cả những giấy tờ từ arXiv, bạn thay vì có thể trích xuất các id arXiv (tôi đoán rằng tìm kiếm "arXiv:" trong văn bản của PDF sẽ liên tục tiết lộ id là lần truy cập đầu tiên).
Một khi bạn có số tham chiếu arXiv (và đã làm một pip install arxiv
), bạn có thể nhận được danh hiệu sử dụng
paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title
Các vấn đề liên quan
- 1. Trích xuất văn bản từ pdf và các tệp từ
- 2. Trích xuất văn bản từ PDF
- 3. Trích xuất xdp hoặc xfa từ PDF
- 4. C# Trích xuất văn bản từ PDF bằng PdfSharp
- 5. trích xuất văn bản từ pdf trong Javascript
- 6. Trích xuất đồ họa vector từ pdf với Inkscape
- 7. trích xuất các từ từ một tệp
- 8. trích xuất tên tệp từ đường dẫn
- 9. Làm cách nào để trích xuất văn bản từ tệp PDF trong Perl?
- 10. Trích xuất tiêu đề email chỉ trong python
- 11. Trích xuất mã VB.NET từ tệp exe
- 12. Trích xuất văn bản từ tệp pdf bằng cách sử dụng javascript
- 13. Làm cách nào để bạn trích xuất hình ảnh từ tệp pdf bằng C#
- 14. Làm cách nào để trích xuất văn bản từ tệp PDF bằng Python?
- 15. Trích xuất bảng từ tệp kết xuất mysql.sql
- 16. Tiêu chí Hibernate trích xuất Năm từ ngày
- 17. cách trích xuất liên kết và tiêu đề từ trang .html?
- 18. Cách tốt nhất để trích xuất múi giờ từ tiêu đề Ngày thư trong Java?
- 19. Trích xuất văn bản PDF đơn giản trên Android?
- 20. không tìm thấy tiêu đề PDF: '% PDF' không tìm thấy
- 21. Cách trích xuất tên tệp từ tên đường dẫn tệp?
- 22. Tiêu đề trong trang PDF bằng DOMPDF trong PHP
- 23. Trích xuất EXIF từ JPEG
- 24. Trích xuất văn bản PDF bằng cách sử dụng iText
- 25. Trích xuất phụ đề tự động từ video trên YouTube
- 26. Mục tiêu-C: Trích xuất tên tệp từ chuỗi đường dẫn
- 27. Trích xuất hình ảnh và từ có tọa độ và kích thước từ PDF
- 28. Trích xuất tọa độ từ tệp KML trong Java
- 29. pyPdf không thể trích xuất văn bản từ một số trang trong PDF
- 30. Phương pháp trích xuất văn bản PDF Sử dụng OCR
Nơi nào bạn nhận được danh hiệu PDF từ đâu? Thông tin đó có cần được trích xuất từ các thuộc tính tài liệu PDF hoặc từ nội dung của tệp PDF hoặc bạn có trích xuất thông tin đó từ một số nguồn khác không? – Rowan
Bản sao có thể có của [Trích xuất thông tin từ tệp PDF của các tài liệu nghiên cứu] (http://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers) – Seanny123