Tôi muốn sử dụng MetaPhone, Double Metaphone, Caverphone, MetaPhone3, SoundEx và nếu ai đó đã thực hiện nó NameX chức năng trong 'R' để tôi có thể phân loại và tóm tắt các giá trị để giảm thiểu hoạt động làm sạch dữ liệu trước khi phân tích.Chức năng MetaPhone (như SoundEx) và sử dụng trong R?
tôi hoàn toàn nhận thức được rằng mỗi thuật toán có những điểm mạnh và điểm yếu riêng của mình và cao không muốn sử dụng Soundex nhưng nó vẫn có thể làm việc nếu tôi không thể tìm thấy lựa chọn thay thế; giống như mentioned in this postHarper sẽ khớp với bất kỳ danh sách tên không có liên quan nào trong SoundEx nhưng không được đặt trong Metaphone để có kết quả phù hợp hơn.
Mặc dù tôi không chắc chắn sẽ phục vụ mục đích của mình tốt nhất trong khi vẫn duy trì tính linh hoạt, đó là lý do tôi muốn đâm một vài trong số đó cũng như trước khi xem xét các giá trị tạo bảng như sau.
tên họ không phải là đối tượng của phân tích ban đầu của tôi, nhưng nghĩ rằng đó là một ví dụ điển hình như tôi muốn xem xét một cách hiệu quả tất cả như từ 'nghe' coi là cùng một giá trị thực sự là những gì Tôi đang cố gắng làm với một cái gì đó đơn giản gọi là giá trị được đánh giá.
Một số điều tôi đã xem xét:
- Tôi biết rằng một gói C có thể được viết và được gọi với RCpp, và có được thậm chí các giải pháp C cho SoundEx on SE, nhưng tôi đã không viết một gói R trước và tìm cách tránh tái phát minh ra bánh xe nếu có cách đơn giản hơn để thực hiện nó trực tiếp trong R hoặc gói tồn tại có chức năng có sẵn không?
- Tôi biết rằng gói RecordLinkage và bây giờ stringdist có chức năng SoundEx, nhưng không phải là bất kỳ hình thức nào của chức năng MetaPhone.
Vì vậy, tôi đặc biệt tìm kiếm một câu trả lời là làm thế nào để một MetaPhone/Caverphone hàm trong R và biết "Giá trị" vì vậy tôi có thể giá trị dữ liệu nhóm của họ?
Thông báo trước nữa là tôi vẫn coi bản thân mình khá mới đối với R vì tôi không phải là người dùng hàng ngày của nó.
FABULOUS! Trong thử nghiệm giới hạn của tôi, nó hoạt động rất tốt. – user2635373