Làm thế nào để có được những kết quả tương tự như http://developer.yahoo.com/search/content/V1/termExtraction.htmlkhai thác Term: Generatings thẻ ra khỏi văn bản
Câu hỏi này đã được yêu cầu khá một vài lần trước đó.
Đang cố gắng để tiếp cận vấn đề này với các giải pháp hiện có tôi stumbled khi "Phân tích văn bản" Solr thực hiện trên tài liệu trước khi lập chỉ mục như được mô tả trong http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - bao gồm cả xuất phát là tốt.
Vì vậy, chỉ mục cuối cùng sẽ bao gồm phần lớn các thuật ngữ được sử dụng để mô tả tài liệu.
Có giải pháp cung cấp máy phân tích, mã thông báo và bộ lọc mã thông báo để sử dụng trực tiếp không? Nếu solr là cách ra, cách tốt nhất có được dữ liệu này từ chỉ số của solr là gì?
yea, các thuật ngữ Solr sẽ chỉ trả lại các mã thông báo duy nhất (có thể trừ đi một số từ phổ biến và thực hiện bắt nguồn từ v.v.). Nó sẽ không thực sự cho bạn biết điều gì là quan trọng trong văn bản. Đối với những gì nó có giá trị bạn có thể hút các điều khoản ra khỏi solr thông qua http://wiki.apache.org/solr/TermsComponent – mlathe