Tôi sử dụng các yếu tố không thường xuyên và thường tìm thấy chúng dễ hiểu, nhưng tôi thường mờ về chi tiết cho các hoạt động cụ thể. Hiện tại, tôi đang mã hóa/thu hẹp các danh mục với vài quan sát thành "khác" và đang tìm kiếm một cách nhanh chóng để làm điều đó - tôi có 20 cấp độ của một biến, nhưng tôi muốn thu gọn một loạt các biến đó thành một biến.R: các mức hệ số, recode phần còn lại 'khác'
data<-data.frame(employees=sample.int(1000,500),
naics=sample(c('621111','621112','621210','621310','621320','621330','621340','621391','621399','621410','621420','621491','621492','621493','621498','621511','621512','621610','621910','621991','621999'),100,replace=T)
)
Dưới đây là mức tôi quan tâm, và nhãn của họ trong vectơ riêng biệt.
#levels and labels
top8 <-c('621111','621210','621399','621610','621330','621310','621511','621420','621320')
top8_desc <- c('Offices of physicians',
'Offices of dentists',
'Offices of all other miscellaneous health practitioners',
'Home health care services',
'Offices of Mental Health Practitioners',
'Offices of chiropractors',
'Medical Laboratories',
'Outpatient Mental Health and Substance Abuse Centers',
'Offices of optometrists')
Tôi có thể sử dụng cuộc gọi factor()
, liệt kê tất cả, phân loại là "khác" cho mỗi lần một danh mục có vài quan sát.
Giả sử rằng 'top8' và 'top8_desc' ở trên là 8 thực tế hàng đầu, cách tốt nhất để khai báo dữ liệu $ naics dưới dạng biến yếu tố và mã hóa mọi thứ khác là 'khác' là gì?
Hm, có liên quan đến dữ liệu thực sự ném đi như trái ngược với việc thay đổi phân loại , nhưng đó có lẽ là những gì mã hóa như là một yếu tố nào anyway ở nơi đầu tiên. Tôi cho rằng nó không quan trọng lắm. – ako
Bạn luôn có thể tạo cột phụ trong khung dữ liệu với các mã đã được chuyển đổi. – kith
Tôi đã thử biến thể này của câu trả lời của bạn: 'cấp độ (dữ liệu $ naics) [mà (! Cấp (dữ liệu $ naics)% trong% top8)] <-" khác "' – ako