2011-08-03 25 views
8

Lucene có khả năng lập chỉ mục 500 triệu tài liệu văn bản có dung lượng 50K không?Lucene - đó có phải là câu trả lời đúng cho chỉ mục lớn không?

Hiệu suất nào có thể được mong đợi chỉ mục như vậy, cho tìm kiếm một cụm từ và tìm kiếm 10 cụm từ?

Tôi có nên lo lắng và chuyển trực tiếp đến môi trường chỉ mục được phân phối không?

Saar

Trả lời

7

Vâng, Lucene nên có thể xử lý này, theo bài viết sau: http://www.lucidimagination.com/content/scaling-lucene-and-solr

Dưới đây là báo giá:

Tùy thuộc vào vô số các yếu tố, một đơn máy có thể dễ dàng lưu trữ chỉ mục Lucene/Solr từ 5 - 80 triệu tài liệu, trong khi giải pháp phân tán có thể cung cấp thời gian phản hồi tìm kiếm phụ trên hàng tỷ tài liệu.

Bài viết sẽ đi sâu vào việc mở rộng quy mô cho nhiều máy chủ. Vì vậy, bạn có thể bắt đầu nhỏ và mở rộng nếu cần.

Một nguồn lực lớn về hiệu suất Lucene là blog của Mike McCandless, người đang tích cực tham gia vào sự phát triển của Lucene: http://blog.mikemccandless.com/ Ông thường sử dụng nội dung của Wikipedia (25 GB) là bài kiểm tra đầu vào cho Lucene.

Ngoài ra, có thể thú vị là tìm kiếm thời gian thực của Twitter hiện được triển khai với Lucene (xem http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html).

Tuy nhiên, tôi tự hỏi nếu các số bạn cung cấp là chính xác: 500 triệu tài liệu x 50 KB = ~ 23 TB - Bạn có thực sự có nhiều dữ liệu không?

+0

Có thể di chuyển trực tiếp đến ElasticSearch, về cơ bản là giải pháp Lucene phân phối – RobAu

+0

Bài viết không rõ ràng là thực tế liệu ứng dụng dựa trên Lucene bình thường có thực sự phù hợp với tải không. Tác giả tiếp tục sử dụng Lucene/Solr. Vì vậy, trong trường hợp đó, như trong trường hợp của Elasticsearch, nơi cấu trúc cơ bản là một chỉ số Lucene chúng ta có thể nói rằng giả thuyết nói rằng Lucene là lựa chọn đúng cho việc xử lý chỉ mục lớn là đúng không? – eliasah

+0

Cho dù là Solr hay ES, chúng đều được phân phối chỉ số Lucene. Vì vậy, thực sự mức độ trừu tượng cao hơn được đưa ra bởi cả hai khuôn khổ đó làm cho Lucene phù hợp với một chỉ số lớn. – eliasah

Các vấn đề liên quan