Nếu bạn cần văn bản thuần túy, bạn nên sử dụng thư viện WikiClean https://github.com/lintool/wikiclean.
Tôi gặp vấn đề tương tự và có vẻ như đây là giải pháp hiệu quả duy nhất có hiệu quả đối với tôi trong java.
Có hai usecases:
1) Khi bạn có văn bản không ở định dạng XML thì bạn nên thêm thẻ xml cần thiết để làm chế biến này. Giả sử bạn đang xử lý tệp XML trước đó, và bây giờ bạn có nội dung không có cấu trúc XML, thì bạn chỉ cần thêm xmlStartTag và xmlEndTag như trong đoạn mã dưới đây, và nó xử lý nó.
String xmlStartTag = "<text xml:space=\"preserve\">";
String xmlEndTag = "</text>";
String articleWithXml = xmlStartTag + article.getText() + xmlEndTag;
WikiClean cleaner = new WikiClean.Builder().build();
String plainWikiText = cleaner.clean(articleWithXml);
2) Khi bạn đọc tệp kết xuất Wikipedia trực tiếp (tệp xml), trong trường hợp đó, bạn chỉ cần chuyển tệp qua tệp và nó đi qua.
WikiClean cleaner = new WikiClean.Builder().build();
String plainWikiText = cleaner.clean(XMLFileContents);
Nguồn
2018-01-16 15:25:28
Cloud bạn đăng mẫu trang hiển thị đánh dấu bạn muốn xóa? – bakkal