Tôi đang viết giao diện người dùng trên máy tính để bàn (.Net WinForms) để hỗ trợ một nhiếp ảnh gia dọn sạch dữ liệu meta hình ảnh của mình. Có một danh sách gồm 66k cụm từ. Bất cứ ai có thể đề xuất một mã nguồn mở/miễn phí. NET thành phần tôi có thể sử dụng mà sử dụng một số loại thuật toán để xác định candiates tiềm năng cho hợp nhất? Ví dụ: có thể có hai hoặc nhiều mục nhập thực sự là cùng một từ hoặc cụm từ chỉ khác nhau theo khoảng trắng hoặc dấu câu hoặc thậm chí là sai chính tả nhỏ. Các ứng dụng cuối cùng sẽ dựa vào người dùng để hành động củng cố các cụm từ nhưng có một cách hiệu quả để tự động tìm các ứng cử viên tiềm năng sẽ chứng minh vô giá.Kết hợp văn bản mờ C#
Trả lời
Hãy để tôi giới thiệu bạn với công thức khoảng cách Levenshtein. Nó là tuyệt vời:
http://en.wikipedia.org/wiki/Levenshtein_distance
Về lý thuyết thông tin và khoa học máy tính, khoảng cách Levenshtein là một chuỗi số liệu để đo lượng chênh lệch giữa hai chuỗi. Khoảng cách chỉnh sửa thuật ngữ thường được sử dụng để chỉ cụ thể đến khoảng cách Levenshtein.
Cá nhân tôi đã sử dụng tính năng này trong cài đặt chăm sóc sức khỏe, nơi tên nhà cung cấp được kiểm tra để sao y. Sử dụng quy trình Levenshtein, chúng tôi đã cho họ một đánh giá sự tự tin và cho phép họ xác định xem đó là một bản sao thực sự hay một cái gì đó độc đáo.
Đây là triển khai trong C#: http://blogs.msdn.com /b/toub/archive/2006/05/05/590814.aspx –
Tôi sẽ đề nghị sử dụng soundex ([http://www.techrepublic.com/blog/programming-and-development/how-do-i- implement-the-soundex-function-in-c/656] (http://www.techrepublic.com/blog/programming-and-development/how-do-i-implement-the-soundex-function-in-c/656)). Sau khi áp dụng soundex, bạn có thể sắp xếp các chuỗi của mình bằng các mã âm thanh mà chúng tạo ra và gắn cờ các mã tương đương để người dùng xem xét. Tôi nghĩ kết quả cuối cùng có thể tương tự như sử dụng khoảng cách levenshtein? – hmqcnoesy
Một điều với soundex là nó vô ích khi kiểm tra các chuỗi chỉ chứa chữ số. – jamiebarrow
- 1. Văn bản mờ UITextField
- 2. Độ mờ bóng văn bản
- 3. Kết hợp các chuỗi mờ
- 4. Hình mờ cho Hộp văn bản
- 5. drawAtPoint: và drawInRect: văn bản mờ
- 6. CSS - Văn bản mờ đục trên div độ mờ thấp?
- 7. Kết hợp văn bản với Eval
- 8. Kết hợp văn bản arabic với regex
- 9. Javascript "hình mờ" cho hộp văn bản
- 10. Đặt mờ văn bản trong Android 4.0.3
- 11. Thuật toán kết hợp mờ phù hợp nhất?
- 12. Kết hợp tìm kiếm php (mờ)
- 13. Kết hợp mờ của tên sản phẩm
- 14. kết hợp nhiều file văn bản vào một file văn bản sử dụng python
- 15. Văn bản bọc hộp kết hợp khi nhập
- 16. Kết hợp hai tệp văn bản với powershell
- 17. CSS-break kết hợp với tràn văn bản
- 18. Văn bản mờ dần của Jquery insde một hộp văn bản và textarea
- 19. Độ mờ của các nút/hộp văn bản - VB.NET
- 20. WebKit: Văn bản mờ với css scale + translate3d
- 21. Graphics.DrawString chỉ định độ mờ của văn bản
- 22. Impress.js: văn bản và hình ảnh trông mờ
- 23. div trong suốt trên hình ảnh nhưng văn bản mờ
- 24. Tập hợp văn bản UITextView không cập nhật văn bản
- 25. Định dạng văn bản cho hộp tổ hợp, C#
- 26. Số kết nối mờ
- 27. Kết hợp mờ bằng cách sử dụng T-SQL
- 28. Kết nối bit mờ
- 29. Bảng tính văn phòng mở (Calc) - Kết hợp các ô văn bản với dấu phân cách
- 30. Thuật toán giải mã nào phù hợp nhất để loại bỏ chuyển động mờ khỏi văn bản?
Xem tại đây để biết thêm thông tin về kết hợp văn bản mờ: http://stackoverflow.com/questions/5859561/getting-the-closest-string-match – jordanhill123