2008-08-25 27 views

Trả lời

12

NekoHTML, TagSoupJTidy sẽ cho phép bạn phân tích cú pháp HTML và sau đó xử lý bằng các công cụ XML, như XPath.

+0

XPath là cách để phân tích cú pháp HTML, nó giúp trong trường hợp HTML được định dạng sai cũng như khi regex không thành công. –

7

Tôi đã thử HTML Parser vốn đã chết đơn giản.

+0

Tôi đã sử dụng trình phân tích cú pháp HTML trên một dự án và nó hoạt động chính xác như mong đợi –

+1

nhưng không có nhiều hướng dẫn ... – Lily

+0

Tôi đã nhận thấy rất nhiều đoạn mã javascript (và thuộc tính phần tử) leo vào nút văn bản được cho là của tôi "nhổ răng. Cũng có một số trường hợp HTML không đúng định dạng khiến toàn bộ quá trình phân tích cú pháp thất bại. Vì vậy, tôi đang tìm kiếm để thay thế các thư viện htmlparser trong dự án của riêng tôi với một cái gì đó tốt hơn một chút. – benjismith

1

Bạn có cần phân tích cú pháp HTML đầy đủ không? Nếu bạn chỉ tìm kiếm các giá trị cụ thể trong nội dung (một thẻ/thông số cụ thể), thì một biểu thức chính quy đơn giản có thể là đủ và có thể nhanh hơn.

Các vấn đề liên quan