2011-08-01 74 views
5

Tôi đang cố gắng khám phá các cách để mô phỏng các giá trị bị thiếu trong tập hợp dữ liệu. Tập dữ liệu của tôi chứa số lần đếm (Unnatural, Natural và tổng Total) cho năm (2001-2009), Month (1-12), Gender (M/F) và AgeGroup (4 nhóm).Dự đoán/mô phỏng các giá trị thiếu của một hồi quy Poisson GLM trong R?

Một trong những kỹ thuật xử lý hình ảnh mà tôi đang khám phá là (imisson) hồi quy imputation.

Giả sử dữ liệu của tôi trông như thế này:

Year Month Gender AgeGroup Unnatural Natural Total 
569 2006  5 Male  15up  278  820 1098 
570 2006  6 Male  15up  273  851 1124 
571 2006  7 Male  15up  304  933 1237 
572 2006  8 Male  15up  296 1064 1360 
573 2006  9 Male  15up  298  899 1197 
574 2006 10 Male  15up  271  819 1090 
575 2006 11 Male  15up  251  764 1015 
576 2006 12 Male  15up  345  792 1137 
577 2007  1 Female  0  NA  NA NA 
578 2007  2 Female  0  NA  NA NA 
579 2007  3 Female  0  NA  NA NA 
580 2007  4 Female  0  NA  NA NA 
581 2007  5 Female  0  NA  NA NA 
... 

Sau khi thực hiện một hồi quy GLM cơ bản - 96 quan sát đã bị xóa do họ bị mất tích. Có lẽ có một cách/gói/chức năng trong R sẽ sử dụng các hệ số của mô hình GLM này để 'dự đoán' (tức là impute) các giá trị còn thiếu cho Tổng (ngay cả khi nó lưu trữ nó trong một khung dữ liệu riêng biệt). Tôi sẽ sử dụng Excel để hợp nhất chúng)? Tôi biết tôi có thể sử dụng các hệ số để dự đoán các hàng phân cấp khác nhau - nhưng điều này sẽ mất vĩnh viễn. Hy vọng rằng có một chức năng/phương pháp một bước?

Call: 
glm(formula = Total ~ Year + Month + Gender + AgeGroup, family = poisson) 

Deviance Residuals: 
     Min   1Q  Median   3Q  Max 
-13.85467 -1.13541 -0.04279 1.07133 10.33728 

Coefficients: 
       Estimate Std. Error z value Pr(>|z|)  
(Intercept) 13.3433865 1.7541626 7.607 2.81e-14 *** 
Year   -0.0047630 0.0008750 -5.443 5.23e-08 *** 
Month   0.0134598 0.0006671 20.178 < 2e-16 *** 
GenderMale  0.2265806 0.0046320 48.916 < 2e-16 *** 
AgeGroup01-4 -1.4608048 0.0224708 -65.009 < 2e-16 *** 
AgeGroup05-14 -1.7247276 0.0250743 -68.785 < 2e-16 *** 
AgeGroup15up 2.8062812 0.0100424 279.444 < 2e-16 *** 
--- 
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

(Dispersion parameter for poisson family taken to be 1) 

    Null deviance: 403283.7 on 767 degrees of freedom 
Residual deviance: 4588.5 on 761 degrees of freedom 
    (96 observations deleted due to missingness) 
AIC: 8986.8 

Number of Fisher Scoring iterations: 4 

Trả lời

6

Trước tiên, hãy rất cẩn thận về giả định mất tích ngẫu nhiên. Ví dụ của bạn trông giống như mất tích cùng xảy ra với Nữ và nhóm tuổi. Bạn thực sự nên kiểm tra xem thiếu sót có liên quan đến bất kỳ người dự đoán nào hay không (hoặc bất kỳ dự đoán nào bị thiếu). Nếu có, câu trả lời có thể bị lệch.

Thứ hai, chức năng bạn đang tìm kiếm có thể là predict, có thể lấy mô hình glm. Xem ?predict.glm để được hướng dẫn thêm. Bạn có thể muốn phù hợp với một loạt các mô hình (tức là các mô hình lồng nhau) để giải quyết các giá trị bị thiếu.

+0

Cảm ơn bạn đã phản hồi nhanh! Tôi sẽ xem? Predict.gifm! Về sự thiếu hụt - về cơ bản cả năm 2007 và một vài tháng trong năm 2008 bị thiếu (đối với cả nam và nữ và tất cả các nhóm tuổi). Tôi đã cố gắng hiểu cơ chế mất tích - nhưng vẫn còn hơi mờ. Tôi sẽ xem các giá trị được dự đoán trông như thế nào và sau đó điều tra thêm. Tôi có thể sẽ cần phải đọc về các tầng của mô hình (mô hình lồng nhau). Cảm ơn – OSlOlSO

+0

+1 Điểm tốt về phản hồi của NA. –

+0

NB: Dòng thác đơn giản là một chuỗi các mô hình trong trường hợp thiếu quan sát. Về mặt toán học, không có mô hình GLM nếu một người dự đoán bị thiếu, vì vậy bạn cần phải có các mô hình thay thế cho kịch bản đó. Cách bạn chọn chúng tùy thuộc vào bạn. Nó sẽ được an toàn cho một chức năng mô hình để nói "Tôi không biết" - cũng giống như những người khôn ngoan làm. :) – Iterator

0

Gói mice cung cấp chức năng cùng tên cho phép mỗi giá trị bị thiếu được dự đoán bằng cách sử dụng lược đồ hồi quy dựa trên các giá trị khác. Nó có thể đối phó với các dự đoán cũng bị thiếu bởi vì nó sử dụng một thuật toán MCMC lặp lại.

Tôi không nghĩ rằng hồi quy poisson là một tùy chọn, nhưng nếu tất cả các số đếm của bạn lớn như ví dụ bình thường hồi quy nên cung cấp một xấp xỉ hợp lý.

Các vấn đề liên quan