Tôi có nhiều nhà cung cấp trong cơ sở dữ liệu, tất cả đều khác nhau ở một số khía cạnh của dữ liệu của họ. Tôi muốn thực hiện quy tắc xác thực dữ liệu dựa trên dữ liệu trước đó.Làm thế nào để tự động tạo mẫu dựa trên dữ liệu thực?
Ví dụ:
A: XZ-4, XZ-23, XZ-217
B: 1276, 1899, 22711
C: 12-4, 12-75, 12
Mục tiêu: nếu người dùng đầu vào chuỗi 'XZ-217' cho nhà cung cấp B, thuật toán nên so sánh dữ liệu trước đó và nói: string này là không giống với nhà cung cấp dữ liệu trước đó B.
Có một số cách/công cụ tốt để đạt được so sánh như vậy không? Câu trả lời có thể là một số thuật toán chung hoặc mô-đun Perl.
Chỉnh sửa: Tính tương tự "" khó xác định, tôi đồng ý. Nhưng tôi muốn bắt được thuật toán, có thể phân tích 100 mẫu ca trước đó và sau đó so sánh kết quả phân tích với dữ liệu mới. Sự tương tự có thể dựa trên độ dài, về việc sử dụng các ký tự/số, mẫu tạo chuỗi, đầu/cuối/đầu tương tự, có một số dấu phân cách.
Tôi cảm thấy nó không phải là công việc dễ dàng, nhưng mặt khác, tôi nghĩ rằng nó có sử dụng rất rộng. Vì vậy, tôi hy vọng, đã có một số gợi ý.
Điều này thực sự mơ hồ.Hãy thử xác định một số thứ như "tương tự". Máy tính không thể nói "Eh, có vẻ gần đủ" trừ khi bạn đưa ra các quy tắc chính xác. Ví dụ: bạn có thể muốn "có nhiều hơn X ký tự chung" hoặc "bắt đầu bằng cùng ký tự Y" hoặc "có cùng biểu tượng (ví dụ: dấu gạch ngang) ở giữa". – FakeRainBrigand
Điều này sẽ khá khó khăn trừ khi bạn có thể áp đặt một số ràng buộc bổ sung. Xem xét: làm thế nào để giữ thuật toán học mẫu của bạn không quyết định sử dụng 'qr /.*/'? –