Giả sử tôi muốn khớp các bản ghi địa chỉ (hoặc tên người hoặc bất kỳ thứ gì) với nhau để hợp nhất các bản ghi có nhiều khả năng đề cập đến cùng một địa chỉ. Về cơ bản, tôi đoán tôi muốn tính toán một số loại tương quan giữa giá trị văn bản và hợp nhất các bản ghi nếu giá trị này vượt quá một ngưỡng nhất định.Tính tương quan văn bản nhạy cảm với ngữ cảnh
Ví dụ: "West Lawnmower Drive 54 A" có thể giống như "W. Lawn Mower Dr. 54A" nhưng khác với "East Lawnmower Drive 54 A".
Bạn tiếp cận vấn đề này như thế nào? Nó sẽ là cần thiết để có một số loại từ điển dựa trên ngữ cảnh mà biết, trong trường hợp địa chỉ, rằng "W", "W." và "Tây" là như nhau? Điều gì về lỗi chính tả ("mover" thay vì "mower", v.v ...)?
Tôi nghĩ đây là một vấn đề phức tạp - có lẽ có một số thuật toán nổi tiếng ngoài kia?
Xin cảm ơn, một số gợi ý hay ở đó. –