Tôi đang thực hiện hồi quy logistic bằng cách sử dụng pandas 0.11.0
(xử lý dữ liệu) và statsmodels 0.4.3
để thực hiện hồi quy thực tế, trên Mac OSX Lion.Python 2.7 - mô hình thống kê - định dạng và viết đầu ra tóm tắt
Tôi sẽ chạy ~ 2,900 mô hình hồi quy logistic khác nhau và cần kết quả đầu ra cho tệp csv và được định dạng theo cách cụ thể.
Hiện nay, tôi chỉ biết làm print result.summary()
đó in kết quả (như sau) để vỏ:
Logit Regression Results
==============================================================================
Dep. Variable: death_death No. Observations: 9752
Model: Logit Df Residuals: 9747
Method: MLE Df Model: 4
Date: Wed, 22 May 2013 Pseudo R-squ.: -0.02672
Time: 22:15:05 Log-Likelihood: -5806.9
converged: True LL-Null: -5655.8
LLR p-value: 1.000
===============================================================================
coef std err z P>|z| [95.0% Conf. Int.]
-------------------------------------------------------------------------------
age_age5064 -0.1999 0.055 -3.619 0.000 -0.308 -0.092
age_age6574 -0.2553 0.053 -4.847 0.000 -0.359 -0.152
sex_female -0.2515 0.044 -5.765 0.000 -0.337 -0.166
stage_early -0.1838 0.041 -4.528 0.000 -0.263 -0.104
access -0.0102 0.001 -16.381 0.000 -0.011 -0.009
===============================================================================
Tôi cũng sẽ cần các tỷ số chênh, mà được tính bằng print np.exp(result.params)
, và được in trong vỏ như vậy:
age_age5064 0.818842
age_age6574 0.774648
sex_female 0.777667
stage_early 0.832098
access 0.989859
dtype: float64
những gì tôi cần là cho các từng được viết vào một tập tin csv trong hình thức của một lon hàng rất tương tự (không chắc chắn, vào thời điểm này, cho dù tôi sẽ cần những thứ như Log-Likelihood
, nhưng đã bao gồm nó vì lợi ích của toàn diện):
`Log-Likelihood, age_age5064_coef, age_age5064_std_err, age_age5064_z, age_age5064_p>|z|,...age_age6574_coef, age_age6574_std_err, ......access_coef, access_std_err, ....age_age5064_odds_ratio, age_age6574_odds_ratio, ...sex_female_odds_ratio,.....access_odds_ratio`
Tôi nghĩ bạn sẽ có được hình ảnh - một hàng rất dài, với tất cả các giá trị thực tế này và tiêu đề có tất cả các chỉ định cột theo định dạng tương tự.
Tôi quen thuộc với csv module
bằng Python và đang trở nên quen thuộc hơn với pandas
. Không chắc chắn liệu thông tin này có thể được định dạng và lưu trữ trong một pandas dataframe
và sau đó được viết, sử dụng to_csv
vào tệp khi tất cả ~ 2,900 mô hình hồi quy logistic đã hoàn tất; điều đó chắc chắn sẽ ổn. Ngoài ra, viết chúng như mỗi mô hình được hoàn thành cũng tốt (sử dụng csv module
).
UPDATE:
Vì vậy, tôi đang tìm kiếm thêm tại trang statsmodels, đặc biệt là cố gắng tìm hiểu làm thế nào kết quả của một mô hình được lưu trữ trong các lớp học. Có vẻ như có một lớp được gọi là 'Kết quả', sẽ cần được sử dụng. Tôi nghĩ rằng việc sử dụng thừa kế từ lớp này để tạo một lớp khác, trong đó một số phương thức/toán tử được thay đổi có thể là cách để đi, để có được định dạng mà tôi yêu cầu. Tôi có rất ít kinh nghiệm trong cách làm điều này, và sẽ cần phải dành một chút thời gian để tìm ra điều này (điều đó là tốt). Nếu ai cũng có thể giúp/có nhiều trải nghiệm tuyệt vời hơn!
Dưới đây là trang web nơi mà các lớp học được đặt ra: statsmodels results class
Đã thêm cập nhật vào cuối câu hỏi này. Xin vui lòng xem qua! – DMML
Nếu bạn xem xét cập nhật câu trả lời, vui lòng xem xét tự trả lời. – Jacinda