Tôi cần phải tự động khớp tên sản phẩm (máy ảnh, máy tính xách tay, TV-s vv) đến từ các nguồn khác nhau với tên chuẩn trong cơ sở dữ liệu.Kết hợp mờ của tên sản phẩm
Ví dụ "Canon PowerShot a20IS", "powershot A20 MỚI LÀ từ Canon" và "Máy ảnh kỹ thuật số Canon PS A20IS" nên tất cả các trận đấu "Canon PowerShot A20 LÀ". Tôi đã làm việc với khoảng cách levenshtein với một số heuristics thêm (loại bỏ các từ thông dụng rõ ràng, gán chi phí cao hơn để thay đổi số vv), mà làm việc ở một mức độ nào đó, nhưng không đủ tốt không may.
Vấn đề chính là ngay cả những thay đổi một chữ cái trong các từ khóa có liên quan cũng có thể tạo ra sự khác biệt lớn, nhưng không dễ để phát hiện từ khóa nào có liên quan. Hãy xem xét ví dụ ba tên sản phẩm:
Lenovo T400
Lenovo R400
New Lenovo T400, Core 2 Duo
Hai đầu tiên là chuỗi ridiculously tương tự theo tiêu chuẩn nào (ok, Soundex có thể giúp để phân biệt chữ T và R trong trường hợp này, nhưng tên cũng có thể là 400T và 400R), cái đầu tiên và thứ ba khá xa nhau như chuỗi, nhưng là cùng một sản phẩm.
Rõ ràng, thuật toán khớp không thể chính xác 100%, mục tiêu của tôi là tự động khớp khoảng 80% tên với độ tin cậy cao.
Bất kỳ ý tưởng hoặc tài liệu tham khảo được nhiều đánh giá
Phương pháp này có phù hợp với bạn hay bạn đã đi theo một hướng khác? –