Có thể trích xuất văn bản từ các URL bằng Tika không? Mọi liên kết sẽ được đánh giá cao. Hoặc TIKA chỉ có thể sử dụng cho pdf, từ và bất kỳ tài liệu truyền thông nào khác?Trích xuất văn bản từ các URL bằng TIKA
Trả lời
Đây là từ lucid:
InputStream input = new FileInputStream(new File(resourceLocation));
ContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
PDFParser parser = new PDFParser();
parser.parse(input, textHandler, metadata);
input.close();
out.println("Title: " + metadata.get("title"));
out.println("Author: " + metadata.get("Author"));
out.println("content: " + textHandler.toString());
Thay vì tạo ra một PDFParser
bạn có thể sử dụng Tika của AutoDetectParser
để tự động xử lý các loại khác của tập tin:
Parser parser = new AutoDetectParser();
Kiểm tra documentation - có bạn có thể.
Ví dụ
java -jar tika-app-0.9.jar -t http://stackoverflow.com/questions/6656849/extract-the-text-from-url-using-tika
sẽ hiển thị nội dung trên trang này.
để trích xuất nội dung từ URL không từ tập tin địa phương sử dụng mã này:
byte[] raw = content.getContent();
ContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(new ByteArrayInputStream(raw), handler, metadata, new ParseContext());
LOG.info("content: " + handler.toString());
Bạn cũng có thể sử dụng TikaInputStream.get (byte []) để xây dựng InputStream – Gagravarr
Cảm ơn ,, Tôi không biết tại sao nó cho tôi chuỗi rỗng trong handler.toString() !!! –
Có, bạn có thể làm điều đó. Đây là mã. Mã này sử dụng apache http client
HttpGet httpget = new HttpGet("http://url.here");
HttpEntity entity = null;
HttpClient client = new DefaultHttpClient();
HttpResponse response = client.execute(httpget);
entity = response.getEntity();
if (entity != null) {
InputStream instream = entity.getContent();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(instream, handler, metadata, new ParseContext());
String plainText = handler.toString();
FileWriter writer = new FileWriter("/scratch/cache/output.txt");
writer.write(plainText);
writer.close();
System.out.println("done");
}
- 1. Cách trích xuất URL từ văn bản
- 2. Trích xuất URL từ các tệp văn bản/HTML lớn
- 3. Trích xuất văn bản từ PDF
- 4. Trích xuất văn bản từ HTML Java
- 5. Trích xuất các danh từ và động từ văn bản
- 6. Trích xuất văn bản từ pdf và các tệp từ
- 7. C# Trích xuất văn bản từ PDF bằng PdfSharp
- 8. Trích xuất JSON từ văn bản
- 9. Trích xuất văn bản Itextsharp
- 10. trích xuất văn bản từ tex, xóa các thẻ latex
- 11. Trích xuất URL từ chuỗi
- 12. Cách tốt nhất để trích xuất văn bản từ tệp văn bản 1.3GB bằng PHP?
- 13. Thuật toán nào sử dụng khả năng đọc để trích xuất văn bản từ URL?
- 14. Cách trích xuất URL từ một trang HTML bằng Python
- 15. cột Trích xuất từ file văn bản sử dụng PowerShell
- 16. Trích xuất văn bản PDF bằng cách sử dụng iText
- 17. Trích xuất đường dẫn từ canvas html văn bản
- 18. Trích xuất tên miền từ url
- 19. Làm cách nào để trích xuất URL và văn bản liên kết từ HTML trong Perl?
- 20. trích xuất văn bản từ pdf trong Javascript
- 21. Trích xuất văn bản từ một contentEditable div
- 22. Sử dụng regex để trích xuất URL từ văn bản thuần túy với Perl
- 23. Java - PDFBox - Trích xuất văn bản
- 24. Phương pháp trích xuất vị trí từ văn bản?
- 25. Trích xuất văn bản nội dung từ Email PHP
- 26. sed/awk: Trích xuất mẫu từ luồng văn bản
- 27. URL Extract từ văn bản trong PHP
- 28. Java regex để trích xuất văn bản giữa các thẻ
- 29. Trích xuất các cụm từ khóa từ văn bản (1-4 từ ngram)
- 30. Trích từ danh từ văn bản (Java)
Và nếu tôi cần sử dụng mã này trong mã Java và lưu văn bản từ url trong tệp văn bản .. Sau đó, cũng có thể .. ?? Và tôi không dùng maven. Tôi muốn sử dụng điều này trong mã java .. – ferhan
mô tả cách sử dụng tika với ant là ngay bên dưới mô tả về cách sử dụng nó với Maven, và chỉ ở trên các hướng dẫn cho công cụ dòng lệnh. Nếu bạn cần một số nguồn cảm hứng về cách nhúng nó, tôi chắc chắn có thông tin trên trang web và luôn có nguồn gốc của công cụ dòng lệnh. – fvu
điều này sẽ làm cho một ví dụ tốt đẹp trong tài liệu ... – topchef