Đếm phù hợp giữa hai chuỗi

Tôi có hai khung dữ liệu:Đếm phù hợp giữa hai chuỗi

df.1 <- data.frame(loc = c('A','B','C','C'), person = c(1,2,3,4), str = c("door/window/table", "window/table/toilet/vase ", "TV/remote/phone/window", "book/vase/car/chair"))

Như vậy,

loc person        str 
1 A  1   door/window/table 
2 B  2 window/table/toilet/vase 
3 C  3 TV/remote/phone/window 
4 C  4  book/vase/car/chair

Và,

df.2 <- data.frame(loc = c('A','B','C'), str = c("book/chair/chair", " table/remote/vase ", "window"))

mang đến cho,

loc      str 
1 A book/chair/car 
2 B table/remote/vase 
3 C     window

Tôi muốn tạo ra một biến df.1$percentage cho phép tính tỷ lệ phần trăm của các nguyên tố trong df.1$str có trong df.2$strchỉnh sửa bởi loc, hay:

loc person        str percentage 
1 A  1   door/window/table  0.00 
2 B  2 window/table/toilet/vase  0.50 
3 C  3 TV/remote/phone/window  0.25 
4 C  4  book/vase/car/chair  0.00

(1 có 0/3, 2 có 2/4 trận đấu, 3 có 1/4 và 4 có 0/4)

Cảm ơn!

Nguồn

2013-05-29 Lucarno

Các yếu tố phù hợp có cần cùng một loc không? – Edward

Xin lỗi, vâng. kết hợp các chuỗi bằng 'loc'. Tôi đã chỉnh sửa câu hỏi. – Lucarno

Như bạn đã biết, data.frame cột cũng có thể giữ danh sách (xem Create a data.frame where a column is a list). Vì vậy, bạn có thể chia nhỏ str của bạn vào danh sách các từ:

df.1 <- transform(df.1, words.1 = I(strsplit(as.character(str), "/"))) 
df.2 <- transform(df.2, words.2 = I(strsplit(as.character(str), "/")))

sau đó hợp nhất dữ liệu của bạn:

m <- merge(df.1, df.2, by = "loc")

Và chỉ đơn giản là tính toán tỷ lệ sử dụng mapply:

transform(m, percentage = mapply(function(x, y) sum(x%in%y)/length(x), 
           words.1, words.2))

Nguồn

2013-05-29 23:45:50 flodel

Có lẽ ai đó có thể đưa ra một giải pháp thông minh hơn, nhưng đây là một cách tiếp cận đơn giản:

library(data.table) 
dt1 = data.table(df.1, key = "loc") # set the key to match by loc 
dt2 = data.table(df.2) 

dt1[, percentage := dt1[dt2][, # merge 
      # clean up spaces and convert to strings 
      `:=`(str = gsub(" ", "", as.character(str)), 
       str.1 = gsub(" ", "", as.character(str.1)))][, 
      # calculate the percentage for each row 
      lapply(1:.N, function(i) { 
       tmp = strsplit(str, "/")[[i]]; 
       sum(tmp %in% strsplit(str.1, "/")[[i]])/length(tmp) 
      }) 
    ]] 

dt1 
# loc person        str percentage 
#1: A  1   door/window/table   0 
#2: B  2 window/table/toilet/vase   0.5 
#3: C  3 TV/remote/phone/window  0.25 
#4: C  4  book/vase/car/chair   0

Nguồn

2013-05-29 22:57:27 eddi

Một cách khác,

test <- data.frame(str1 = df.1[1:nrow(df.2),]$str, str2 = df.2$str) 
df.1$percent <- NA 
getwords <- function(x) { gsub(" ","",unlist(strsplit(as.character(x),"/"))) } 
percent <- function(x,y) { 
sum(!is.na(unlist(sapply(getwords(x), function (d) grep(d, getwords(y))))))/ 
length(getwords(x)) 
} 
df.1[1:nrow(df.2),]$percent <- apply(test, 1, function(x) percent(x[1],x[2])) 

> df.1 
     loc person        str percent 

# A  1   door/window/table 0.00 
# B  2 window/table/toilet/vase  0.50 
# C  3 TV/remote/phone/window 0.25 
# C  4  book/vase/car/chair  NA

Nguồn

2013-05-29 23:47:02 jenesaisquoi

Đếm phù hợp giữa hai chuỗi

Trả lời

Các vấn đề liên quan