Làm cách nào để sử dụng Regex để trích xuất nội dung từ tài liệu html, có tính đến các thẻ html và body có thể ở dạng chữ hoa, chữ thường hoặc có thể không tồn tại?Regex Extract html Body
Trả lời
Không sử dụng cụm từ thông dụng cho mục đích này - sử dụng một cái gì đó như Html Agility Pack.
Đây là một phân tích cú pháp HTML nhanh nhẹn mà xây dựng một đọc/viết DOM và hỗ trợ XPATH đồng bằng hoặc XSLT (bạn thực sự không phải hiểu XPath cũng không XSLT để sử dụng nó, đừng lo lắng. ..). Đó là thư viện mã .NET cho phép bạn phân tích cú pháp "ra khỏi web" các tệp HTML. Trình phân tích cú pháp rất khoan dung với "HTML thực sự không đúng định dạng ". Đối tượng mô hình rất giống với những gì đề xuất System.Xml, nhưng đối với tài liệu HTML (hoặc luồng).
Sau đó, bạn có thể trích xuất body
bằng XPATH.
Tôi đồng ý. Tôi đã sử dụng này và phải nói nó nhanh, gọn gàng và sạch sẽ. –
này sẽ giúp bạn khá chặt chẽ:
(?is)<body(?:\s[^>]*)>(.*?)(?:</\s*body\s*>|</\s*html\s*>|$)
Vui lòng cung cấp giải pháp chi tiết. – ShaileshDev
Làm thế nào về một cái gì đó như thế này?
Nó chụp mọi thứ giữa các thẻ <body></body>
(phân biệt chữ hoa chữ thường do RegexOptions.IgnoreCase
) vào một nhóm có tên theBody
.
RegexOptions.Singleline
cho phép chúng tôi xử lý HTML nhiều dòng dưới dạng một chuỗi.
Nếu HTML không chứa <body></body>
thẻ, thuộc tính Success
của trận đấu sẽ là sai.
string html;
// Populate the html string here
RegexOptions options = RegexOptions.IgnoreCase | RegexOptions.Singleline;
Regex regx = new Regex("<body>(?<theBody>.*)</body>", options);
Match match = regx.Match(html);
if (match.Success) {
string theBody = match.Groups["theBody"].Value;
}
- 1. PHP Regex preg_match extract
- 2. Java - Extract chuỗi với Regex
- 3. Extract substring với regex trên PowerShell
- 4. PHP DOMDocument - nhận nguồn html của BODY
- 5. body: => Html trong khung chơi?
- 6. Nhiều <html><body></html></body> trong cùng một tệp
- 7. Thuộc tính CSS cho cả "html" và "body"
- 8. Extract văn bản với lxml.html
- 9. php regex để xóa HTML
- 10. Nội dung `body! = Body` trong mẫu Ngọc nghĩa là gì?
- 11. Trích xuất văn bản bên trong từ nút HTML BODY với Gói nhanh nhạy Html
- 12. Meta Tags In Body
- 13. Regex để thay thế thuộc tính src html trong PHP
- 14. Thao tác chuỗi PHP: Extract hrefs
- 15. số Extract từ biến
- 16. Javascript tương đương với $ ('body')
- 17. Bash - số Extract từ String
- 18. Extract lớp với Resharper 7
- 19. Extract SOAP thân từ một thông điệp SOAP
- 20. Catch body bodyParser lỗi
- 21. Transparent Iframe Body
- 22. JQuery After Body ASP .NET MVC 4
- 23. Trong jQuery, $ ('body') có thể chọn phần tử body, nhưng $ ('body') có thể giống như $ ('some text'), vậy làm cách nào để phân biệt?
- 24. <HTML> và <BODY>: Tại sao không có dòng mới?
- 25. Màu nền của thẻ BODY được áp dụng cho toàn bộ HTML
- 26. Nơi đặt chức năng JavaScript: <head>? <body>? hoặc sau</html>?
- 27. "body {background-color}" hoạt động trong HTML nhưng không có trong CSS
- 28. Áp dụng một nền tảng để <html> và/hoặc <body>
- 29. Cách nhắm mục tiêu phần tử HTML từ một lớp cụ thể của phần tử BODY
- 30. thẻ kiểu và chữ trong HTML body ... tại sao lại không?
Bản sao của http://stackoverflow.com/questions/356340/regular-expression-to-extract-html-body-content? – M4N