Tôi đang cố tạo một trình phân tích cú pháp HTML tổng quát hoạt động tốt trên các Bài đăng trên blog. Tôi muốn chỉ trình phân tích cú pháp của tôi tại URL của entrie cụ thể và lấy lại văn bản sạch của bài đăng. Cách tiếp cận cơ bản của tôi (từ python) đã được sử dụng một sự kết hợp của BeautifulSoup/Urllib2, đó là okay, nhưng nó giả định bạn biết các thẻ thích hợp cho các mục blog. Có ai có ý tưởng nào tốt hơn không?Tạo trình phân tích cú pháp tuyệt vời - Trích xuất văn bản có liên quan từ HTML/Blogs
Dưới đây là một số suy nghĩ có thể ai đó có thể mở rộng, rằng tôi chưa có đủ kiến thức/bí quyết để thực hiện.
Chương trình Unix 'lynx' dường như phân tích các bài đăng trên blog đặc biệt tốt - họ sử dụng trình phân tích cú pháp nào hoặc làm cách nào để sử dụng?
Có bất kỳ dịch vụ/trình phân tích cú pháp nào tự động xóa quảng cáo rác không?
Trong trường hợp này, tôi có một ý niệm mơ hồ rằng có thể giả định rằng các bài đăng trên blog thường được chứa trong một thẻ xác định nhất định với class = "entry" hoặc tương tự. Do đó, có thể tạo một thuật toán tìm thấy các thẻ kèm theo với văn bản rõ ràng nhất giữa chúng - bất kỳ ý tưởng nào về điều này?
Cảm ơn!
Lynx sử dụng trình phân tích cú pháp thẻ của riêng mình. Mã nguồn có sẵn. – Quentin