Có bất kỳ triển khai mã nguồn mở nào trong số LSI trong Java không? Tôi muốn sử dụng thư viện đó cho dự án của mình. Tôi đã thấy jLSI nhưng nó thực hiện một số mô hình khác của LSI. Tôi muốn có một mô hình chuẩn.Bất kỳ chỉ mục ngữ nghĩa tiềm ẩn nào?
Trả lời
Bạn đã xem LDA (phân bổ gián tiếp Dirichlet) chưa? Tôi đã không thực sự hoặc, nhưng tôi gặp phải vấn đề tương tự với LSI gần đây (bằng sáng chế). Từ những gì tôi hiểu LDA là một kỹ thuật liên quan/mạnh mẽ hơn. http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation dường như có một số liên kết đến triển khai nguồn mở.
Mặc dù bạn đặc biệt yêu cầu LSI không phải là bạn. Ồ, đáng để bắn ... –
Tìm kiếm trên Google cho java LSI dẫn đến a similar question đề xuất SemanticVectors. Một gói được xây dựng trên đầu trang của Lucene là 'tương tự' với LSI. Tôi không biết nếu nó gần hơn việc thực hiện jLSI.
Chủ đề đó cũng đề cập rằng LSI được cấp bằng sáng chế và không có nhiều triển khai của nó. Vì vậy, nếu bạn cần một triển khai chuẩn, bạn có thể phải sử dụng một ngôn ngữ khác với java.
Tôi tin rằng LSA/LSI đã được cấp bằng sáng chế vào năm 1989, có nghĩa là bằng sáng chế đã hết hạn. Hy vọng rằng chúng ta sẽ sớm thấy một số ứng dụng mã nguồn mở tốt đẹp.
S-Space Package có phiên bản nguồn mở của LSA, với các ràng buộc cho vectơ tài liệu LSI. (Cả hai cách tiếp cận hoạt động trên cùng một ma trận thuật ngữ tài liệu và tương đương ngoại trừ trong đầu ra.) Đó là một cách tiếp cận khá khả năng mở rộng sử dụng mỏng-SVD. Tôi đã sử dụng nó để chạy LSI trên tất cả các Wikipedia không có vấn đề (sau khi loại bỏ các điều khoản không thường xuyên với ít hơn 5 lần xuất hiện).
Như Scott Ray đã đề cập, gói SemanticVectors cũng có thực thi LSI tốt mà gần đây đã chuyển sang sử dụng cùng một SVD mỏng (SVDLIBJ), vì vậy bạn có thể kiểm tra xem liệu bạn có làm như trước đây không.
Bạn đã thử gói Vector ngữ nghĩa chưa?
một tìm kiếm google cho các công cụ NLP cung cấp slides này mà tôi nghĩ rằng sẽ giúp ...
- 1. Cần trợ giúp về lập chỉ mục ngữ nghĩa tiềm ẩn
- 2. Sử dụng phân tích ngữ nghĩa tiềm ẩn với sklearn
- 3. Khái niệm phân tích ngữ nghĩa tiềm ẩn
- 4. groovy - có bất kỳ biến tiềm ẩn nào để truy cập vào chỉ mục trong phương thức "từng"
- 5. LSA - Phân tích ngữ nghĩa tiềm ẩn - Làm thế nào để mã hóa nó trong PHP?
- 6. Làm cách nào để chúng tôi quyết định số thứ nguyên cho phân tích ngữ nghĩa tiềm ẩn?
- 7. Có bất kỳ nhược điểm tiềm ẩn nào trong việc sử dụng khung công tác Ruby ngoài Rails không?
- 8. Vẽ chức năng tiềm ẩn
- 9. Bất kỳ ai biết về bất kỳ ngôn ngữ kịch bản được nhập tĩnh nào?
- 10. Làm thế nào để vẽ phương trình tiềm ẩn
- 11. Bất kỳ loại thuộc tính "Ẩn" nào trong System.ComponentModel.DataAnnotations?
- 12. rõ ràng và tiềm ẩn C#
- 13. Twitter Bootstrap Modal - Ẩn bất kỳ
- 14. Cách thích hợp để ẩn bất kỳ thẻ HTML nào?
- 15. Python: xác định xem có bất kỳ mục nào theo thứ tự không bằng bất kỳ mục nào khác
- 16. Thư đối sánh bằng bất kỳ ngôn ngữ nào
- 17. jQuery - Chỉ hiển thị một div bất kỳ lúc nào
- 18. JSON chỉ định "bất kỳ ký tự UNICODE nào"?
- 19. Tiềm năng tiềm ẩn khi bỏ qua một số trường bằng bằng/hashCode?
- 20. Chuyển đổi loại tiềm ẩn trong C
- 21. Khung ngữ nghĩa ngữ nghĩa
- 22. i18n lỗi: điều khiển và các mẫu sử dụng ngôn ngữ tiềm ẩn khác nhau
- 23. Tham chiếu biến tiềm ẩn trong R
- 24. Có bất kỳ tác hại nào để có chỉ mục trùng lặp trong Postgresql không?
- 25. Execute diễn viên tiềm ẩn khi chạy
- 26. Tiền tố @ cho đại biểu có bất kỳ ý nghĩa đặc biệt nào không?
- 27. Vấn đề tiềm ẩn với ký tự chuẩn malloc'ing C
- 28. Có bất kỳ ngôn ngữ kịch bản lệnh được nhập tĩnh nào không?
- 29. Xóa tất cả các tệp trong thư mục (không chạm vào bất kỳ thư mục nào hoặc trong bất kỳ thư mục nào)
- 30. ngữ nghĩa @autoreleasepool
Cảm ơn cho việc thêm các ý kiến về jLSI. – Nettogrof