Tôi không thể tìm thấy bất kỳ gói nào để thực hiện việc này. Tôi biết PHP có rất nhiều thư viện cho các tệp PDF (như http://www.fpdf.org/) nhưng bất kỳ điều gì cho Node?Tôi có thể đọc PDF hoặc Tài liệu Word với Node.js không?
Trả lời
Bạn có thể dễ dàng chuyển đổi một thành khác hoặc sử dụng ví dụ một .doc mẫu để tạo tệp .pdf, nhưng có thể bạn sẽ muốn sử dụng dịch vụ web hiện có cho tác vụ này.
Điều này có thể được thực hiện bằng cách sử dụng dịch vụ của Livedocx ví dụ
Để sử dụng dịch vụ này từ nút, xem node-livedocx (Disclaimer: Tôi là tác giả của mô-đun nút này)
Có vẻ như có một số ít cho pdf, nhưng tôi không tìm thấy bất kỳ từ nào cho Word.
Xử lý ràng buộc CPU như vậy thực sự không phải là điểm mạnh của Node (nghĩa là bạn không nhận thêm lợi ích nào khi sử dụng nút để thực hiện trên bất kỳ ngôn ngữ nào khác). Một cách tiếp cận thực dụng sẽ là tìm một công cụ tốt và sử dụng nó từ Node.
Tôi đã nghe những điều tốt đẹp xung quanh văn phòng về docsplit http://documentcloud.github.com/docsplit/
Trong khi nó không phải Node, bạn có thể dễ dàng gọi nó từ Node với http://nodejs.org/docs/latest/api/all.html#child_process.exec
Ưu điểm của một giải pháp JS tinh khiết là đó là nó cầm tay giữa trình duyệt và Node – sdgfsdh
textract là một lib tuyệt vời mà hỗ trợ các tệp PDF, Doc, Docx, v.v.
Lưu ý: textract sử dụng catdoc cho các tệp '.doc' và không hoạt động trong cửa sổ. – Tracker1
node-office không được phát triển tích cực (npm nói cuối cuộc đời), textract hwile đang được tích cực phát triển kể từ tháng 9 năm 2016. – steampowered
Tôi khuyên bạn nên xem unoconv cho chuyển đổi ban đầu của mình, điều này sử dụng LibreOffice hoặc OpenOffice cho chuyển đổi thực tế. Mà thêm một số chi phí.
tôi muốn thiết lập một vài công nhân với tất cả các thiết lập cần thiết, và sử dụng một hàng đợi request/response để xử lý việc chuyển đổi ... (có thể muốn xem xét kue hoặc)
Nói chung đây là một CPU ràng buộc và nhiệm vụ nặng nề nên được offloaded ... Pandoc và những người khác đề cập cụ thể .docx
, không .doc
để họ có thể hoặc có thể không được lựa chọn là tốt.
Lưu ý: Tôi biết câu hỏi này là cũ, chỉ muốn cung cấp câu trả lời hiện tại cho những người khác gặp phải vấn đề này.
Đối với phân tích file pdf bạn có thể sử dụng nút pdf2json mô-đun
Nó cho phép bạn chuyển đổi tập tin pdf để JSON cũng như dữ liệu văn bản thô.
Một tùy chọn tốt khác nếu bạn chỉ cần chuyển đổi từ tài liệu Word là Mammoth.js.
Mammoth được thiết kế để chuyển đổi tài liệu .docx, chẳng hạn như những người tạo ra bởi Microsoft Word, và chuyển đổi chúng sang HTML. Mammoth nhằm mục đích tạo ra HTML đơn giản và rõ ràng bằng cách sử dụng thông tin ngữ nghĩa trong tài liệu, và bỏ qua các chi tiết khác. Ví dụ, Mammoth chuyển đổi bất kỳ đoạn nào với kiểu Đầu đề 1 thành phần tử h1, thay vì cố gắng sao chép chính xác kiểu (phông chữ, cỡ chữ, màu sắc, v.v.) của tiêu đề.
Có sự chênh lệch lớn giữa cấu trúc được sử dụng bởi cấu trúc .docx và cấu trúc của của HTML, có nghĩa là chuyển đổi không thể là hoàn hảo cho các tài liệu phức tạp hơn. Mammoth hoạt động tốt nhất nếu bạn chỉ sử dụng các kiểu sử dụng để đánh dấu tài liệu của mình theo ngữ nghĩa.
bạn có thể sử dụng văn bản pdf cho tệp pdf. nó sẽ trích xuất văn bản từ một pdf thành một mảng văn bản 'khối'. Hữu ích cho việc phân tích cú pháp mờ trên văn bản pdf có cấu trúc.
var pdfText = require('pdf-text')
var pathToPdf = __dirname + "/info.pdf"
pdfText(pathToPdf, function(err, chunks) {
//chunks is an array of strings
//loosely corresponding to text objects within the pdf
//for a more concrete example, view the test file in this repo
})
var fs = require('fs')
var buffer = fs.readFileSync(pathToPdf)
pdfText(buffer, function(err, chunks) {
console.log(chunks)
})
cho tệp docx bạn có thể sử dụng voi ma mút, nó sẽ trích xuất văn bản từ tệp .docx.
var mammoth = require("mammoth");
mammoth.extractRawText({path: "./doc.docx"})
.then(function(result){
var text = result.value; // The raw text
console.log(text);
var messages = result.messages;
})
.done();
Tôi hy vọng điều này sẽ hữu ích.
Dưới đây là một ví dụ cho thấy làm thế nào để tải về và trích xuất văn bản từ PDF sử dụng PDF.js:
import _ from 'lodash';
import superagent from 'superagent';
import pdf from 'pdfjs-dist';
const url = 'http://unec.edu.az/application/uploads/2014/12/pdf-sample.pdf';
const main = async() => {
const response = await superagent.get(url).buffer();
const data = response.body;
const doc = await pdf.getDocument({ data });
for (const i of _.range(doc.numPages)) {
const page = await doc.getPage(i + 1);
const content = await page.getTextContent();
for (const { str } of content.items) {
console.log(str);
}
}
};
main().catch(error => console.error(error));
- 1. Lập chỉ mục Tài liệu Word và PDF với Sphinx
- 2. Chuyển đổi tài liệu MS Word sang PDF trong ASP.NET
- 3. Tôi có thể hợp nhất hai tài liệu Microsoft Word đáng tin cậy với Subversion không?
- 4. Đọc Tài liệu PDF trong Android
- 5. Đọc tài liệu PDF trong .Net
- 6. Làm tài liệu Word nhúng trong một trang web có thể chỉnh sửa hoặc read-only
- 7. Chuyển đổi tài liệu Word sang PDF bằng cách sử dụng Java
- 8. Delphi chuyển đổi tài liệu sang pdf bằng cách sử dụng Word ActiveX
- 9. Có thể lưu trữ thông tin siêu dữ liệu ẩn được gắn với một Bảng hoặc Ô cụ thể trong tài liệu Word không?
- 10. Tạo tài liệu Word bằng JavaScript với Docx.js?
- 11. Có thể biên dịch tài liệu latex thông qua node.js không?
- 12. jQueryMobile - không thể liên kết đến tài liệu PDF
- 13. Có thể cập nhật các trường biểu mẫu trong Tài liệu Word thông qua tập lệnh
- 14. Tạo PDF từ Tài liệu Mã của tôi
- 15. Hiển thị tài liệu Microsoft Word trên trang web
- 16. Ngăn các trường tài liệu Word cập nhật khi mở
- 17. Trình tạo tài liệu REST API của Node.js hoặc Express.js
- 18. Mở Tài liệu Word từ IE
- 19. Tôi có thể chạy Node.JS với đặc quyền thấp không?
- 20. tạo javadoc làm tài liệu word
- 21. Có cách nào để chuyển tiếp một tài liệu PDF sang một tài liệu PDF khác bằng iTextSharp không?
- 22. Tôi có thể gọi xóa trên tài liệu gốc không?
- 23. Chuyển đổi tài liệu Word thành HTML có thể sử dụng được trong PHP
- 24. Tôi có thể tạo một giao dịch hoàn tác trong Word hoặc Excel không? (VSTO)
- 25. Tài liệu HTML sang PDF?
- 26. Làm cách nào để làm việc với Tài liệu Word mà không sử dụng COM Automation?
- 27. Đọc tài liệu Microsoft Word thành văn bản thuần tuý (DOC, DOCX) trong Java
- 28. Chuyển đổi PDF sang Word chất lượng cao bằng PHP?
- 29. Tài liệu có thể đọc được của con người có thể thực hiện được với Spock không?
- 30. Tạo một tệp PDF tài liệu Python
sao, đây là chặt chẽ Con trai. Thực hiện tốt. – Alan