Tôi rất ngạc nhiên khi ai đó đã hỏi cách tạo hệ thống đề xuất chính tả hiện đại cho công cụ tìm kiếm. Tôi đã làm việc về chủ đề này trong hơn một năm cho một công ty công cụ tìm kiếm và tôi có thể trỏ đến thông tin về miền công cộng về chủ đề này.
Như đã đề cập trong một bài trước, Google (và Microsoft và Yahoo!) không sử dụng bất kỳ từ điển được xác định trước hoặc họ không sử dụng đám của các nhà ngôn ngữ học suy nghĩ về lỗi chính tả có thể có của các truy vấn. Điều đó sẽ là không thể do quy mô của vấn đề mà còn bởi vì nó không phải là rõ ràng rằng mọi người thực sự có thể xác định chính xác khi nào và nếu một truy vấn sai chính tả.
Thay vào đó, có một nguyên tắc đơn giản và khá hiệu quả cũng hợp lệ cho tất cả các ngôn ngữ châu Âu. Nhận tất cả truy vấn duy nhất trên nhật ký tìm kiếm của bạn, tính toán khoảng cách chỉnh sửa giữa tất cả các cặp truy vấn, giả sử truy vấn tham chiếu là truy vấn có số lượng cao nhất.
Thuật toán đơn giản này sẽ hoạt động tốt cho nhiều loại truy vấn. Nếu bạn muốn đưa nó lên cấp độ tiếp theo thì tôi đề nghị bạn đọc bài báo của Microsoft Research về chủ đề đó. Bạn có thể tìm thấy nó here
Bài báo có phần giới thiệu tuyệt vời nhưng sau đó bạn sẽ cần phải am hiểu về các khái niệm như Mô hình Markov ẩn.
Nguồn
2009-05-05 07:06:38
@pek: Tôi đã có suy nghĩ tương tự cách đây một thời gian ... Bạn có nghĩ đến việc sử dụng trình quét HTML và sử dụng Google làm nguồn sửa chữa không? –
Xem http://stackoverflow.com/questions/3763640/where-can-i-learn-more-about-the-google-search-did-you-mean-algorithm – John