2009-07-08 25 views
5

Làm thế nào để có được những kết quả tương tự như http://developer.yahoo.com/search/content/V1/termExtraction.htmlkhai thác Term: Generatings thẻ ra khỏi văn bản

Câu hỏi này đã được yêu cầu khá một vài lần trước đó.

Đang cố gắng để tiếp cận vấn đề này với các giải pháp hiện có tôi stumbled khi "Phân tích văn bản" Solr thực hiện trên tài liệu trước khi lập chỉ mục như được mô tả trong http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - bao gồm cả xuất phát là tốt.

Vì vậy, chỉ mục cuối cùng sẽ bao gồm phần lớn các thuật ngữ được sử dụng để mô tả tài liệu.

Có giải pháp cung cấp máy phân tích, mã thông báo và bộ lọc mã thông báo để sử dụng trực tiếp không? Nếu solr là cách ra, cách tốt nhất có được dữ liệu này từ chỉ số của solr là gì?

Trả lời

4

Solr là một cách để tạo công cụ tìm kiếm tùy chỉnh. Nó dường như không phải là công cụ thích hợp cho công việc. Các danh sách Wikipedia article about term extraction trong phần "các liên kết bên ngoài" của nó một số ứng dụng web để trích xuất cụm từ. OpenNLP có danh sách các công cụ hữu ích. Its Chunker có thể hữu ích.

+0

yea, các thuật ngữ Solr sẽ chỉ trả lại các mã thông báo duy nhất (có thể trừ đi một số từ phổ biến và thực hiện bắt nguồn từ v.v.). Nó sẽ không thực sự cho bạn biết điều gì là quan trọng trong văn bản. Đối với những gì nó có giá trị bạn có thể hút các điều khoản ra khỏi solr thông qua http://wiki.apache.org/solr/TermsComponent – mlathe

0

Chỉ cần hỏi các thuật ngữ được phân tích cú pháp, ví dụ:

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1 

Xem TermsComponent để biết thêm thông tin.

Các vấn đề liên quan