Vâng, Lucene nên có thể xử lý này, theo bài viết sau: http://www.lucidimagination.com/content/scaling-lucene-and-solr
Dưới đây là báo giá:
Tùy thuộc vào vô số các yếu tố, một đơn máy có thể dễ dàng lưu trữ chỉ mục Lucene/Solr từ 5 - 80 triệu tài liệu, trong khi giải pháp phân tán có thể cung cấp thời gian phản hồi tìm kiếm phụ trên hàng tỷ tài liệu.
Bài viết sẽ đi sâu vào việc mở rộng quy mô cho nhiều máy chủ. Vì vậy, bạn có thể bắt đầu nhỏ và mở rộng nếu cần.
Một nguồn lực lớn về hiệu suất Lucene là blog của Mike McCandless, người đang tích cực tham gia vào sự phát triển của Lucene: http://blog.mikemccandless.com/ Ông thường sử dụng nội dung của Wikipedia (25 GB) là bài kiểm tra đầu vào cho Lucene.
Ngoài ra, có thể thú vị là tìm kiếm thời gian thực của Twitter hiện được triển khai với Lucene (xem http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html).
Tuy nhiên, tôi tự hỏi nếu các số bạn cung cấp là chính xác: 500 triệu tài liệu x 50 KB = ~ 23 TB - Bạn có thực sự có nhiều dữ liệu không?
Nguồn
2011-08-03 13:03:33
Có thể di chuyển trực tiếp đến ElasticSearch, về cơ bản là giải pháp Lucene phân phối – RobAu
Bài viết không rõ ràng là thực tế liệu ứng dụng dựa trên Lucene bình thường có thực sự phù hợp với tải không. Tác giả tiếp tục sử dụng Lucene/Solr. Vì vậy, trong trường hợp đó, như trong trường hợp của Elasticsearch, nơi cấu trúc cơ bản là một chỉ số Lucene chúng ta có thể nói rằng giả thuyết nói rằng Lucene là lựa chọn đúng cho việc xử lý chỉ mục lớn là đúng không? – eliasah
Cho dù là Solr hay ES, chúng đều được phân phối chỉ số Lucene. Vì vậy, thực sự mức độ trừu tượng cao hơn được đưa ra bởi cả hai khuôn khổ đó làm cho Lucene phù hợp với một chỉ số lớn. – eliasah