Tôi đã tìm kiếm một số ví dụ, nhưng tôi không tìm thấy bất kỳ giá trị nào được bật lọc & ngày của chúng.spread() khung dữ liệu dựa trên ID và giá trị trong một cột khác
Date <-c('3/13/2017 6:21', '3/20/2017 6:28','3/13/2017 6:22','3/20/2017 6:28',' 3/13/2017 6:23','3/20/2017 6:28','3/13/2017 6:24',' 3/20/2017 6:28', ' 3/24/2017 6:28')
Enabled_value<-c(0,1,0,1,0,1,0,1,0)
Helper<-c('39RTU1','39RTU1','39RTU2','39RTU2','39RTU2','39RTU3','39RTU3','39RTU4','39RTU4', '39RTU4')
để trông giống như:
Helper Date(Enabled Value =0) Date (Enabled Value =1)
39RTU1 3/13/2017 6:20 3/20/2017 6:28
39RTU2 3/13/2017 6:21 3/20/2017 6:28
39RTU3 3/13/2017 6:22 3/20/2017 6:28
39RTU4 3/13/2017 6:24 3/20/2017 6:28
39RTU4 3/24/2017 6:28
Như bạn thấy, tôi có timestamps cho mỗi quan sát - mỗi hàng phải là một trường hợp (ví dụ chuyển từ Enabled_value 0-1, và nếu cuối cùng Enabled_value cho đơn vị = 0, cần có một dòng mới (xem 39RTU4 dưới đây).
tôi đã thực hiện việc mở rộng giảm tập dữ liệu này (từ 500k đến 2k hàng).
Tôi đang cố gắng sử dụng tidyr
và dplyr
, nhưng spread
của tôi vẫn tiếp tục chạy các lỗi.
> sorted_data1<-spread(sorted_data,Enabled_Value,Helper)
Error: Duplicate identifiers for rows (1340, 1342)
Tôi nghĩ rằng câu hỏi này có liên quan đến https://stackoverflow.com/questions/47043098/transpose-columns-group-by-time-and-customer-id – markdly