Tôi đã thực hiện rất nhiều nghiên cứu để tìm ra cách tốt nhất để viết mã ứng dụng để lấy nội dung bài viết chính từ hầu hết mọi trang web HTML. Tôi có một chương trình C sử dụng libxml2 để phân tích cú pháp thông qua XML, nhưng tôi bắt gặp API Alchemy, dường như làm những gì tôi muốn.Trích xuất nội dung bài viết HTML - Alchemy API thay thế
Tuy nhiên, nó chỉ có API trực tuyến và tôi muốn giữ ứng dụng trong nhà mà không phải dựa vào bất kỳ cuộc gọi bên ngoài nào.
Vì vậy, không ai có mẹo? Tôi đã hy vọng cho một thay thế off-line mà những gì Alchemy API có thể làm (trả tiền/không trả tiền).
Cách thay thế của tôi có thể chỉ phân tích cú pháp HTML và sử dụng các kỹ thuật NLP (Xử lý ngôn ngữ tự nhiên) và các phương pháp khác để lấy nội dung bài viết chính. Các loại trang web sẽ được sử dụng bao gồm các trang web có phần tin tức hoặc blog.
Tôi tin rằng bạn đã gắn thẻ câu hỏi này không chính xác. Thẻ "Alchemy" đề cập đến Adobe Alchemy. Tôi đoán rằng bạn đang nói về http://www.alchemyapi.com – Gunslinger47