Tôi có một tệp XML là đầu ra từ cơ sở dữ liệu. Tôi đang sử dụng trình phân tích SAX Java để phân tích cú pháp XML và xuất nó theo một định dạng khác. XML có chứa một số ký tự không hợp lệ và phân tích cú pháp là ném lỗi như 'không hợp lệ Unicode ký tự (0x5)'Tước các ký tự XML không hợp lệ trong Java
Có cách nào tốt để gỡ bỏ tất cả những nhân vật này ra ngoài trước khi xử lý các tập tin line-by-line và thay thế chúng ? Cho đến nay tôi đã chạy vào 3 ký tự không hợp lệ khác nhau (0x5, 0x6 và 0x7). Đó là một kho dữ liệu ~ 4gb và chúng ta sẽ xử lý nó một loạt lần, vì vậy phải đợi thêm 30 phút mỗi lần chúng ta có một bãi chứa mới để chạy bộ xử lý trước trên nó sẽ là một cơn đau, và đây không phải là lần đầu tiên tôi gặp phải vấn đề này.
Do các nhân vật có bất kỳ ý nghĩa? Có lẽ họ không phải là tham nhũng ngẫu nhiên, do đó, không tước họ loại bỏ thông tin? –
Nếu tệp chứa các ký tự không hợp lệ, nó không phải là tệp XML. Yêu cầu những người sáng tạo của nó tạo ra chỉ XML được định dạng tốt trong tương lai. Tôi đã có vấn đề này rất nhiều trong quá khứ. Mọi người dường như không hiểu rằng XML cần phải được hình thành tốt và không chứa rác. – MarkR
Tôi đồng ý 100% Rất tiếc, không phải lúc nào cũng có thể (những người công nghệ không đủ năng lực, từ ngữ hợp đồng, v.v.) – Mason