Tôi muốn truy vấn tài liệu HTML dưới dạng XML (ví dụ: với XPath), vì vậy tôi cần chuyển HTML thông qua một số hình thức dọn dẹp HTML.Có bất kỳ trình phân tích cú pháp HTML Java nào trong đó các nút được tạo giữ lại các chỉ mục cho văn bản gốc không?
Nhưng tôi cũng muốn thực hiện sửa đổi đối với chuỗi nguồn gốc dựa trên kết quả của truy vấn.
Có một trình phân tích cú pháp HTML Java xung quanh giữ lại các chỉ mục cho chuỗi nguồn gốc, vì vậy tôi có thể định vị một nút và sửa đổi phần chính xác của chuỗi gốc không?
Chúc mừng.
Sẽ tốt hơn nếu bạn làm việc với DOM và sau đó chuyển đổi nó thành một biểu diễn chuỗi? Bạn sẽ có phiên bản HTML rõ ràng hơn cùng với các thay đổi của mình. Có lý do cụ thể nào mà bạn cần sửa đổi chuỗi nguồn gốc không? –
Tôi có thể nghĩ về một. Nó giúp bạn dễ dàng tìm ra những sửa đổi nội dung nào đã được thực hiện nếu bạn không phải lội qua một loạt các thay đổi văn bản chỉ là kết quả của việc giải mã XML một chút khác biệt. –
Vivin - Tôi đang cố gắng 'làm sạch' các mục nhạy cảm nhất định từ các trang HTML để tôi có thể chạy các kiểm tra phân tích cú pháp khác với HTML gốc (với dữ liệu nhạy cảm được ghi đè bằng 999 hoặc xxx vv). Ngoài ra, tôi muốn các bài kiểm tra khác nhau có thể chạy trong cả Java và Javascript, vì vậy nguồn gốc là điểm khởi đầu tốt nhất cho tôi, vì trình phân tích HTML HTML và trình phân tích cú pháp HTML của mỗi trình duyệt có thể dẫn đến các DOM khác nhau không nên). –