Tôi có một tập hợp lớn các tập tin (hdf) mà tôi cần cho phép tìm kiếm. Đối với Java, tôi sẽ sử dụng Lucene cho điều này, vì nó là một công cụ lập chỉ mục tệp và tài liệu. Tôi không biết những gì tương đương python sẽ được mặc dù.Lập chỉ mục và tìm kiếm tập tin Python
Có ai có thể đề xuất thư viện nào tôi nên sử dụng để lập chỉ mục một tập hợp lớn các tệp để tìm kiếm nhanh không? Hay là cách ưa thích để cuộn của riêng bạn?
Tôi đã xem pylucene và lupy, nhưng cả hai dự án dường như khá không hoạt động và không được hỗ trợ, vì vậy tôi không chắc liệu có nên dựa vào chúng hay không.
Ghi chú cuối cùng: Woosh và pylucene có vẻ đầy hứa hẹn, nhưng woosh vẫn là alpha nên tôi không chắc chắn tôi muốn dựa vào nó và tôi gặp vấn đề khi biên dịch pylucene và không có bản phát hành thực sự nào. Sau khi tôi đã nhìn nhiều hơn một chút vào dữ liệu, nó chủ yếu là số và chuỗi văn bản mặc định, do đó, ngay bây giờ một công cụ lập chỉ mục sẽ không giúp tôi. Hy vọng rằng các thư viện này sẽ ổn định và sau đó du khách sẽ tìm thấy một số sử dụng cho họ.
Tôi có thể đọc các tập tin hdf5 tốt bằng cách sử dụng các pytables, tôi chỉ cần tìm đúng công cụ để lập chỉ mục thông tin tôi trích xuất. – Staale
Tôi có ít kinh nghiệm trong khu vực. Vì bạn đã có thể đọc các tập tin hd5, tôi nghĩ rằng pyIndexer có thể làm việc cho bạn. Tôi có ít kinh nghiệm trong khu vực và tôi hy vọng dự án của bạn hoạt động tốt. – batbrat