Tôi có một trang web được tải trong trình duyệt (ví dụ: DOM và vị trí phần tử đều có thể truy cập được với tôi) và tôi muốn tìm phần tử khối (hoặc được sắp xếp danh sách các phần tử này), có khả năng chứa nhiều nội dung nhất (như trong khối văn bản liên tục). Mục đích là để loại trừ những thứ như menu, tiêu đề, chân trang và như vậy.Tôi có thể sử dụng thuật toán nào để xác định nội dung trên trang web
Trả lời
Đây là yêu thích cá nhân của tôi: VIPS: a Vision-based Page Segmentation Algorithm
Trước tiên, nếu bạn cần phân tích cú pháp trang web, tôi sẽ sử dụng HTMLAgilityPack để chuyển đổi nó thành XML. Nó sẽ tăng tốc mọi thứ và sẽ cho phép bạn sử dụng XPath đơn giản để truy cập trực tiếp vào BODY.
Sau đó, bạn phải chạy trên tất cả các div (Bạn có thể nhận tất cả các phần tử DIV trong danh sách từ gói nhanh nhẹn) và nhận bất kỳ thứ gì bạn muốn.
Có một kỹ thuật đơn giản để làm được điều này, dựa trên phân tích như thế nào "ồn ào" HTML là, ví dụ, tỷ lệ đánh dấu cho văn bản hiển thị thông qua một trang html là gì. The Easy Way to Extract Useful Text from Arbitrary HTML mô tả này tex, cho một số mã python để minh họa.
Cf. cũng là mô-đun Perl HTML::ContentExtractor, thực hiện ý tưởng này. Nó sẽ có ý nghĩa để làm sạch html đầu tiên, nếu bạn muốn sử dụng này, sử dụng beautifulsoup.
Tôi muốn giới thiệu Luận án của Vit Baisa về Web Content Cleaning, tôi nghĩ rằng anh ấy có một số mã quá, nhưng tôi không thể tìm thấy liên kết cho nó. Ngoài ra còn có một số discussion của cùng một vấn đề về ngôn ngữ tự nhiên xử lý blog LingPipe.
- 1. Thuật toán để xác định nội dung do Markov tạo ra?
- 2. cách đơn giản nhất để hiển thị động nội dung toán học trên các trang web
- 3. Tôi làm cách nào để mã hóa nội dung của người dùng trên trang web của mình để thậm chí tôi không thể truy cập nội dung?
- 4. Tôi làm cách nào để xác thực CSS trên các trang web nội bộ?
- 5. Làm cách nào để tôi có được nội dung của trang web
- 6. Thuật toán tìm kiếm trang web
- 7. Tôi nên sử dụng thẻ meta nào để cho biết tác giả trang web (không phải nội dung)?
- 8. Thuật toán để ước lượng chiều rộng văn bản dựa trên nội dung
- 9. Làm cách nào để tôi có thể sử dụng phép toán trong trang web html của tôi
- 10. Sử dụng CMYK trên trang web
- 11. (ColdFusion) So sánh hai ngày, sử dụng kết quả để xác định nội dung hiển thị
- 12. Trang web sử dụng SSL, nhưng Google Chrome đã phát hiện thấy nội dung không an toàn trên trang
- 13. Nội dung trung tâm của trang web
- 14. Làm thế nào để xác định thuật toán mã hóa được sử dụng trong bản mã?
- 15. Xác định xml trong xsd trong đó thuộc tính xác định nội dung có thể là
- 16. Tôi có thể sử dụng macro được xác định trước nào để phát hiện tiếng kêu?
- 17. Cách xác định Quản lý nội dung
- 18. Biên soạn nội dung tĩnh cho một trang web
- 19. Xác định thuật toán mã hóa GSM
- 20. Tôi có thể xác định nội dung cho một chức năng riêng tư ở đâu?
- 21. Tôi có thể sử dụng MiniProfiler để trang bị một trang web ASP.NET MVC WebApi không?
- 22. Tại sao trang .cshtml của tôi cần xác định nội dung?
- 23. Có thể tải trước nội dung trang bằng kỹ thuật ajax/jquery không?
- 24. Tôi có thể thay đổi nội dung của nhãn trong trang chính khi tải trang nội dung không?
- 25. Làm cách nào tôi có thể xác định thông báo MD5 của một nội dung cụ thể trong đường dẫn nội dung Rails?
- 26. Cách sử dụng OpenID trên trang web của tôi
- 27. Thuật toán trộn ngẫu nhiên có thể sử dụng phím
- 28. Tôi làm cách nào để hiển thị nội dung cá nhân của mình từ Facebook trên trang web của mình?
- 29. Tôi có thể ngăn điện thoại ngủ trên trang web
- 30. PHP: làm thế nào tôi có thể tải nội dung của một trang web vào một biến?
Tôi quan tâm nhiều hơn đến các loại tiêu chí mà tôi có thể sử dụng để đánh giá các nút ứng viên riêng lẻ. – VoY