Tôi muốn so sánh hai tập dữ liệu và xác định các trường hợp cụ thể về sự khác biệt giữa chúng (tức là các biến khác nhau).Xác định sự khác biệt cụ thể giữa hai tập dữ liệu trong R
Trong khi tôi đã tìm ra cách để xác định hồ sơ không phải là giống hệt nhau giữa hai bộ dữ liệu (sử dụng chức năng trình bày chi tiết ở đây: http://www.cookbook-r.com/Manipulating_data/Comparing_data_frames/), tôi không chắc chắn làm thế nào để cờ mà biến là khác nhau.
Ví dụ:
dữ liệu thiết lập A:
id name dob vaccinedate vaccinename dose
100000 John Doe 1/1/2000 5/20/2012 MMR 4
100001 Jane Doe 7/3/2011 3/14/2013 VARICELLA 1
dữ liệu bộ B:
id name dob vaccinedate vaccinename dose
100000 John Doe 1/1/2000 5/20/2012 MMR 3
100001 Jane Doee 7/3/2011 3/24/2013 VARICELLA 1
100002 John Smith 2/5/2010 7/13/2013 HEPB 3
Tôi muốn xác định các hồ sơ khác nhau, và đó biến cụ thể (s) có sự khác biệt. Ví dụ: bản ghi John Doe có 1 sự khác biệt trong dose
và bản ghi Jane Doe có 2 sự khác biệt: trong name
và vaccinedate
. Ngoài ra, tập dữ liệu B có một bản ghi bổ sung không có trong tập dữ liệu A và tôi cũng muốn xác định các trường hợp này.
Cuối cùng, mục tiêu là tìm tần suất của "loại" lỗi, ví dụ: bao nhiêu hồ sơ có sự khác biệt trong vaccinedate, vaccinename, dose, v.v.
Cảm ơn!
Hãy thử [Khoảng cách Hamming] (https://en.wikipedia.org/wiki/Hamming_distance) – Gathide