2009-01-29 38 views
26

Thuật toán kết hợp mờ phù hợp nhất (Logic mờ, N-Gram, Levenstein, Soundex ....,) để xử lý hơn 100000 bản ghi trong thời gian ít hơn là gì?Thuật toán kết hợp mờ phù hợp nhất?

+0

Tôi tưởng tượng rằng @Mitch Wheat * muốn nói là sẽ rất khó để đưa ra câu trả lời dứt khoát cho câu hỏi này, vì giải pháp tốt nhất sẽ phụ thuộc nhiều vào các đặc điểm của kiến ​​trúc hệ thống và đầu vào của bạn. Như Tim đã đề cập trong câu trả lời của mình, bạn nên đọc về những điểm mạnh và điểm yếu của các thuật toán này, và sau đó kiểm tra những cái có vẻ thích hợp cho chính mình. – DougW

Trả lời

21

Tôi khuyên bạn nên đọc các bài viết của Navarro được đề cập trong phần Refences của bài viết trên Wikipedia có tiêu đề Approximate string matching. Đưa ra quyết định của bạn dựa trên nghiên cứu thực tế luôn tốt hơn đề xuất ngẫu nhiên người lạ .. Đặc biệt nếu hiệu suất trên một bộ bản ghi đã biết là quan trọng đối với bạn.

3

Nó ồ ạt phụ thuộc vào dữ liệu của bạn. Một số bản ghi có thể được kết hợp tốt hơn so với các bản ghi khác. Ví dụ mã bưu điện là định dạng được xác định để có thể được so sánh theo một cách khác với các chuỗi thông thường. Mọi người có thể được so khớp với tên viết tắt và DOB hoặc các kết hợp khác, v.v.

Các vấn đề liên quan