Kỹ thuật tóm tắt văn bản là những gì bạn có thể làm sau. Nhưng với tư cách là một heuristic thô, bạn có thể làm điều này với một số bước tương đối đơn giản miễn là bạn không đếm trên 100% kết quả hoàn hảo tất cả các thời gian.
Miễn là bạn không cần hỗ trợ các hệ thống viết không có dấu cách giữa các từ (tiếng Trung, tiếng Nhật), bạn có thể nhận được kết quả khá tốt bằng cách tìm kiếm vài chuỗi đầu tiên của chuỗi từ liên tiếp một ngưỡng tùy ý mà bạn sẽ dành một vài ngày điều chỉnh. (Trung Quốc và Nhật Bản sẽ yêu cầu một thuật toán xác định từ hợp lý phá vỡ thêm vào này heuristic).
tôi sẽ bắt đầu với một HTML Parser (HTML Agility Pack trong Dotnet, hoặc một cái gì đó giống như Nokogiri Ruby hoặc BeautifulSoup Python nếu bạn muốn thử nghiệm với các thuật toán trong một môi trường tương tác nhiều hơn trước khi cam kết với giải pháp C# của bạn).
Để giảm không gian tìm kiếm, chuỗi các liên kết có ít hoặc không có văn bản xung quanh bằng cách sử dụng các tính năng của trình phân tích cú pháp HTML của bạn. Điều đó sẽ loại bỏ hầu hết các bảng điều hướng và một số loại quảng cáo nhất định. Bạn có thể mở rộng thêm điều này để tìm các liên kết có các từ sau chúng nhưng không có dấu chấm câu; điều này sẽ loại bỏ các liên kết mô tả.
Nếu bạn bắt đầu thấy dòng chữ chạy theo sau "." hoặc "," có nghĩa là, từ 5 từ trở lên (bạn có thể thử điều chỉnh sau), bạn sẽ bắt đầu cho điểm đó là một đoạn câu hoặc câu có thể có tiềm năng. Khi bạn tìm thấy một số lần chạy liên tiếp, điều đó có tỷ lệ cược khá tốt là phần quan trọng nhất của trang. Bạn có thể ghi điểm văn bản với các thẻ <p>
xung quanh nó cao hơn một chút. Một khi bạn có một số tiền hợp lý của các loại trình tự, tỷ lệ cược là khá tốt mà bạn đã có "nội dung" chứ không phải là bố cục chrome.
Điều này sẽ không hoàn hảo, và bạn có thể cần phải thêm một cơ chế để tinh chỉnh heuristic dựa trên cấu trúc trang có vấn đề mà bạn thường xuyên quét. Nhưng nếu bạn xây dựng một cái gì đó dựa trên phương pháp này, nó sẽ cung cấp kết quả khá hợp lý cho 80% hoặc hơn nội dung của bạn.
Nếu bạn thấy loại phương pháp này không đầy đủ, bạn có thể muốn xem xét xác suất Bayes hoặc Mô hình ẩn Markov như một cách để cải thiện kết quả.
Gói nhanh nhẹn HTML giúp bạn ở đây? –