tôi cần phải truy cập vào một chỉ số Lucene (tạo ra bởi bò nhiều trang web sử dụng Nutch) nhưng nó là đưa ra các lỗi hiển thị ở trên:có phân đoạn file * tìm thấy
java.io.FileNotFoundException: no segments* file found in [email protected]/home/<path>: files:
at org.apache.lucene.index.SegmentInfos$FindSegmentsFile.run(SegmentInfos.java:516)
at org.apache.lucene.index.IndexReader.open(IndexReader.java:185)
at org.apache.lucene.index.IndexReader.open(IndexReader.java:148)
at DictionaryGenerator.generateDict(DictionaryGenerator.java:24)
at DictionaryGenerator.main(DictionaryGenerator.java:56)
Tôi googled nhưng lý do đưa ra không phù hợp với các yêu cầu. Thực tế là các tệp đang được hiển thị (đường dẫn) có thể có nghĩa là thư mục không trống.
Cảm ơn
Tôi đã làm tất cả trong số họ ngoại trừ các phiên bản Nutch và Lucene. Tôi không biết rằng có sự tương thích giữa Lucene và Nutch. Nếu nó giúp, phiên bản lucene là 2.2. Tôi có thể truy cập các tập tin. Infact, tôi đang chạy chương trình java trong cùng thư mục với chỉ mục. Ngoài ra, tôi đã kiểm tra chỉ số bằng cách sử dụng Luke và nó chắc chắn là tốt. Ngoài ra, điều là tôi chỉ trở thành một phần của dự án. Chỉ mục là kết quả của việc thu thập dữ liệu mở rộng của Nutch. Vì vậy, tôi không có bất kỳ mã lập chỉ mục nào. Nó chỉ là một thu thập dữ liệu. Nhưng tôi vẫn sẽ cố gắng tìm ra bức tranh chính xác. – crazyaboutliv
Một điều tôi đã quan sát là phiên bản mới hơn của Nutch (1.1) tạo ra 5 thư mục sau khi thu thập thông tin trong khi dữ liệu mà tôi chỉ có 4 (trong đó phân đoạn là một) thư mục. Đó có phải là vấn đề không? – crazyaboutliv
Giống như Yuval đã nói, hãy chắc chắn rằng chương trình Java mà bạn sử dụng để đọc chỉ mục sử dụng cùng một phiên bản của Lucene mà Nutch đã sử dụng để tạo chỉ mục. –