2010-11-08 32 views
7

Tôi đã thực hiện rất nhiều nghiên cứu để tìm ra cách tốt nhất để viết mã ứng dụng để lấy nội dung bài viết chính từ hầu hết mọi trang web HTML. Tôi có một chương trình C sử dụng libxml2 để phân tích cú pháp thông qua XML, nhưng tôi bắt gặp API Alchemy, dường như làm những gì tôi muốn.Trích xuất nội dung bài viết HTML - Alchemy API thay thế

Tuy nhiên, nó chỉ có API trực tuyến và tôi muốn giữ ứng dụng trong nhà mà không phải dựa vào bất kỳ cuộc gọi bên ngoài nào.

Vì vậy, không ai có mẹo? Tôi đã hy vọng cho một thay thế off-line mà những gì Alchemy API có thể làm (trả tiền/không trả tiền).

Cách thay thế của tôi có thể chỉ phân tích cú pháp HTML và sử dụng các kỹ thuật NLP (Xử lý ngôn ngữ tự nhiên) và các phương pháp khác để lấy nội dung bài viết chính. Các loại trang web sẽ được sử dụng bao gồm các trang web có phần tin tức hoặc blog.

+1

Tôi tin rằng bạn đã gắn thẻ câu hỏi này không chính xác. Thẻ "Alchemy" đề cập đến Adobe Alchemy. Tôi đoán rằng bạn đang nói về http://www.alchemyapi.com – Gunslinger47

Trả lời

4

có một số công cụ nguồn mở có sẵn để thực hiện các tác vụ trích xuất bài viết tương tự. https://github.com/jiminoc/goose là mã nguồn mở của Gravity.com

Thông tin có trên wiki cũng như nguồn bạn có thể xem. Có hàng chục bài kiểm tra đơn vị hiển thị văn bản được trích xuất từ ​​nhiều bài viết khác nhau.

+0

bạn có biết bất kỳ lựa chọn thay thế khác tương tự như ngỗng nhưng trong PHP? –

0

AlchemyAPI cũng cung cấp giải pháp tại chỗ để bạn không phải truy cập trực tuyến. Nói chung khách hàng của chúng tôi có các giải pháp tại chỗ đang sử dụng nó nếu họ có các yêu cầu bảo mật hoặc độ trễ đặc biệt. Bạn có thể tìm thêm thông tin về các giải pháp tại chỗ tại đây: http://www.alchemyapi.com/products/on-premise/

+0

Liên kết không hợp lệ ngay bây giờ; giải pháp tại chỗ bị ngưng. – Naffi

Các vấn đề liên quan