Tôi đã nghiên cứu các kỹ thuật tìm kiếm âm thanh, metaphone và chuỗi khác trong vài ngày qua và hiểu được cả hai thuật toán đều hoạt động tốt trong việc xử lý các từ không phải tiếng Anh chuyển thành tiếng Anh.Bật soundex/metaphone cho các ký tự không phải tiếng Anh
Tuy nhiên, yêu cầu mà tôi có cho tìm kiếm đó sẽ hoạt động ở các ngôn ngữ gốc, không được chuyển ngữ, chứa bảng chữ cái như tiếng Đức, tiếng Na Uy và thậm chí cả bảng chữ cái Cyrilic.
Có bất kỳ thuật toán tìm kiếm nào có khả năng xử lý các bảng chữ cái này hoàn toàn không? Hay tôi tốt hơn khi sử dụng các thư viện tìm kiếm toàn văn bản của bên thứ ba như Lucene? Do đó, câu hỏi sau đó sẽ trở thành 'liệu Lucene có xử lý các bảng chữ cái không phải tiếng Anh không?'
Nếu trường hợp sử dụng của bạn chỉ là tìm kiếm văn bản bằng các ngôn ngữ không phải tiếng Anh, bạn có thể không cần âm thanh. Bạn cần Lucene với một Analyzer thích hợp, như ire_and_curses nói. Nếu bạn muốn xử lý các biến thể viết khác nhau của cùng một từ, bạn sẽ cần một thuật toán khớp đúng ngữ âm. Bạn có thể nói thêm về trường hợp sử dụng của bạn không? –