Máy phân tích lucene nào có thể được sử dụng để xử lý văn bản tiếng Nhật đúng cách? Nó có thể xử lý Kanji, Hiragana, Katakana, Romaji, và bất kỳ sự kết hợp nào của họ.Máy phân tích lucene nào có thể được sử dụng để xử lý văn bản tiếng Nhật?
Trả lời
tôi thấy lucene-gosen trong khi làm một tìm kiếm cho mục đích riêng của tôi:
dụ của họ trông khá đàng hoàng, nhưng tôi đoán đó là loại điều mà cần thử nghiệm rộng rãi. Tôi cũng lo lắng về chính sách tương thích ngược của họ (hay đúng hơn là thiếu hoàn toàn.)
Bạn có lẽ nên xem gói CJK nằm trong vùng contrib của Lucene. Có một máy phân tích và một bộ mã hóa đặc biệt để giao dịch với Trung Quốc, Nhật Bản và Hàn Quốc.
Trình phân tích CJK dường như là một cách ngây thơ để tìm kiếm mọi thứ, và từ kinh nghiệm trước đây, dường như không cung cấp kết quả tìm kiếm. Có điều gì tôi cần làm đặc biệt để làm cho CJK Analyzer hoạt động như sửa đổi một số trọng lượng hay gì đó không? Cảm ơn –
Tôi chưa bao giờ sử dụng máy phân tích CJK vì vậy tôi không thể nói. Bạn có thể thử yêu cầu trên danh sách gửi thư Lucene (http://lucene.apache.org/java/docs/mailinglists.html#Java User List) để được trợ giúp cụ thể hơn - có những người rất có kinh nghiệm với Lucene trong danh sách đó. – adrianbanks
- 1. Máy phân tích Lucene Hebrew
- 2. Lucene Highlighter với máy phân tích gốc
- 3. Bắt đầu từ tiếng Anh với Lucene
- 4. Tôi làm cách nào để phân tích cú pháp văn bản đã đánh dấu để xử lý thêm?
- 5. Máy phân tích tiêu chuẩn Lucene và quả cầu tuyết
- 6. Làm thế nào để xử lý/phân tích lỗi cho phần còn lại WCF được gọi là sử dụng WebClient
- 7. Các thư viện phân tích văn bản Java
- 8. Trích từ sử dụng nltk từ văn bản tiếng Đức
- 9. Từ tiếng Anh nào có thể được tạo bằng cách sử dụng hệ thập lục phân?
- 10. Xử lý văn bản trong Java
- 11. Làm cách nào để phân tích cú pháp tệp văn bản bằng cách sử dụng javascript
- 12. Làm thế nào để sử dụng Lucene và JPA?
- 13. Sử dụng trình phân tích nhật ký để phân tích nhiều nhật ký trong các thư mục khác nhau
- 14. Có thể sử dụng phân tích google cho phía máy chủ không?
- 15. Phân tích tệp văn bản trong Java
- 16. Có cách nào đơn giản để phân tích cú pháp văn bản này thành Bản đồ
- 17. Phân tích ý nghĩa từ văn bản
- 18. Làm cách nào để sử dụng VIM hiệu quả để chỉnh sửa văn bản tiếng Anh?
- 19. Bạn có thể định cấu hình Phân tích mã VS2008 để sử dụng từ điển tiếng Anh của Anh không?
- 20. Delphi có thể được sử dụng để tạo và xử lý một trình xử lý giao thức tùy chỉnh không?
- 21. Bạn sử dụng bộ xử lý văn bản nào cho các giấy tờ kỹ thuật?
- 22. MapReduce là phương pháp tốt để phân tích nhật ký máy chủ http như thế nào?
- 23. Xử lý trước hình ảnh để nhận dạng văn bản
- 24. C# Phân tích khối văn bản
- 25. Phát hiện xem văn bản bằng tiếng Anh có python
- 26. NSXMLParser không thể phân tích các ký tự đặc biệt (tiếng Đức và tiếng Pháp)
- 27. Cách phân tích các câu tiếng Anh đơn giản
- 28. Thuật toán hoặc thư viện để phân tích văn bản, cụ thể: từ, cụm từ trên văn bản và tập hợp văn bản
- 29. Tôi nên phát hiện dấu phân cách nào được sử dụng trong tệp văn bản?
- 30. Bất kỳ phông chữ nào để tạo pdf sẽ xử lý tiếng Trung, Cyrillic ...?
Chúng tôi không sử dụng lucene-gosen, nhưng chúng tôi đã sử dụng gosen. Vì vậy, tôi chấp nhận câu trả lời này (vì nó đủ gần và dự án trông thú vị). CJK làm một tìm kiếm rất ngây thơ trong đó nó chỉ phù hợp với nhân vật và không phải từ không giống như gosen (trong đó sử dụng một từ điển để phân tích cú pháp thích hợp). –