2013-02-12 18 views
8

Tôi thu thập thông tin vài trang web với Apache Nutch 2.1.Apache Nutch 2.1 khác nhau id id (null)

Trong khi thu thập thông tin, tôi thấy thông báo sau trên nhiều trang:
ví dụ: Bỏ qua http://www.domainname.com/news/subcategory/111111/index.html; id lô khác nhau (null).

Điều gì gây ra lỗi này?
Làm cách nào để giải quyết vấn đề này, vì các trang có id lô khác nhau (null) không được lưu trữ trong cơ sở dữ liệu.

Trang web mà tôi đã thu thập thông tin dựa trên drupal, nhưng tôi đã thử trên nhiều trang web khác không phải của drupal.

+0

Bạn đã có thể giải quyết vấn đề này chưa? – darksky

+0

No. Tôi đã thử vài tuần nhưng không thành công. Sau đó tôi ngừng sử dụng Nutch. Giống như cách thay thế, bạn có thể sử dụng trình thu thập thông tin php: [liên kết] (http://www.sphider.eu/download.php) [link] (http://www.sphider-plus.eu/) –

+0

Tôi tìm thấy một giải pháp phù hợp với nhu cầu của tôi. Python scrapey cũng rất tuyệt: http://scrapy.org/ – darksky

Trả lời

1

Tôi nghĩ, thông báo không phải là vấn đề. batch_id không được gán cho tất cả url. Vì vậy, nếu batch_id là null, bỏ qua url. Tạo url khi batch_id được xác định cho url.

Các vấn đề liên quan