2012-03-02 25 views
6

Tôi muốn tạo mã để trích xuất tin tức chính từ một trang web tin tức. Tin tức các trang web chứa các tin tức chính, quảng cáo, đánh giá, thông báo bản quyền vì vậy tôi muốn nhận được chỉ những tin tức chính như thực hiện trong nồi hơi nhưng tôi muốn biết làm thế nào để làm điều đó.Trích xuất nội dung chính (Mật độ văn bản cao nhất) Từ một bài báo Web-Page

Vì vậy, tôi muốn có thông tin về quy trình thực hiện công việc này như thế nào.

Sudhanshu

Trả lời

8

các trang web boilerpipe chứa mã nguồn, hướng dẫn quickstart, liên kết đến các bài báo khoa học gốc và để tương ứng trình bày hội nghị video:

http://code.google.com/p/boilerpipe/

này sẽ cho bạn một bộ khá toàn diện thông tin về cách thức hoạt động và cách bạn có thể áp dụng điều này trong kịch bản của mình.

nhất,

Christian

0

JSOUP cung cấp một API cho phân tích cú pháp HTML

0

tôi sẽ cung cấp cho htmlcleaner một thử.

HTMLCleaner là thư viện Java được sử dụng để phân tích cú pháp một cách an toàn và biến đổi mọi HTML được tìm thấy trên web thành XML đúng ngữ pháp. Nó được thiết kế nhỏ, nhanh, linh hoạt và độc lập. HtmlCleaner có thể được sử dụng trong mã java, dưới dạng công cụ dòng lệnh hoặc tác vụ Ant. Kết quả phân tích cú pháp là mô hình đối tượng tài liệu nhẹ có thể dễ dàng được chuyển đổi thành các tiêu chuẩn như DOM hoặc JDom, hoặc được tuần tự hóa thành đầu ra XML theo nhiều cách khác nhau (nhỏ gọn, được in đẹp và vân vân).

Bạn có thể sử dụng XPath với htmlcleaner để có được nội dung bên trong xml/html tags.Here là đẹp
dụ Xpath Example

2

Chúng tôi cố gắng rất nhiều crawlers mã nguồn mở, như Độ khó, Beautiful Soup vv cho cùng, nhưng sau khi thử nghiệm Diffbot API chúng tôi quyết định sử dụng nó cho AppMarkt. Nó nhanh chóng và trích xuất các bài viết thực sự tốt từ các ngôn ngữ khác nhau.

Các vấn đề liên quan