Tôi đang cố gắng sử dụng thư viện java boilerpipe để trích xuất các bài viết tin tức từ một tập hợp các trang web. Nó hoạt động tốt cho các văn bản bằng tiếng Anh, nhưng đối với văn bản có các ký tự đặc biệt, ví dụ, các từ có dấu trọng âm (história), các ký tự đặc biệt này không được trích xuất chính xác. Tôi nghĩ rằng đó là một vấn đề mã hóa.Sử dụng nồi hơi để trích xuất các bài viết không phải tiếng Anh
Trong faq của nồi hơi, nó nói "Nếu bạn trích xuất văn bản không phải tiếng Anh, bạn có thể cần phải thay đổi một số thông số" và sau đó đề cập đến một số paper. Tôi không tìm thấy giải pháp nào trong bài báo này.
Câu hỏi của tôi là, có bất kỳ thông số nào khi sử dụng nồi hơi nơi tôi có thể chỉ định mã hóa không? Có cách nào để đi xung quanh và nhận được các văn bản chính xác?
Làm thế nào tôi đang sử dụng thư viện: (lần đầu tiên cố gắng dựa trên URL):
URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);
(thứ hai trên mã nguồn HTLM)
String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);
Cảm ơn câu trả lời của bạn. Tôi xin lỗi vì chỉ chú ý đến nó bây giờ nhưng tôi đã bị mắc kẹt trong một dự án khác. Tôi đã thử in mã hóa được đặt trên biến cs sau đoạn mã này và kết quả luôn là ISO-8859-1. Tôi cũng đã cố gắng để buộc các mã hóa được UTF-8, nhưng không có kết quả tốt hơn. Sự cố phải nằm trong một trong các chuyển đổi, thành HTMLDocument, thành TextDocument, v.v. Nhưng tôi đang gặp sự cố khi in nội dung văn bản của họ. Bất kỳ ý tưởng? Cảm ơn một lần nữa. –
Andrei, bạn đã đúng. Tôi đã cố gắng phức tạp rất nhiều, nhưng cuối cùng nó là một giải pháp rất đơn giản. Cảm ơn một lần nữa, tôi xin lỗi tôi không thể upvote bạn được nêu ra. –