2014-10-11 24 views
12

Với tư cách là người dùng R, tôi cũng muốn được tăng tốc trên scikit.Tóm tắt Sci-kit và hồi quy

Bắt đầu với Linear, Ridge và Lasso. Tôi đã trải qua các ví dụ. Dưới đây là cho OLS cơ bản.

Để thiết lập mô hình (s) có vẻ enough- hợp lý nhưng dường như không thể tìm thấy một cách hợp lý để có được một bộ tiêu chuẩn của sản lượng hồi quy.

Ví dụ trong mã của tôi:

# Linear Regression 
import numpy as np 
from sklearn import datasets 
from sklearn.linear_model import LinearRegression 
# load the diabetes datasets 
dataset = datasets.load_diabetes() 
# fit a linear regression model to the data 
model = LinearRegression() 
model.fit(dataset.data, dataset.target) 
print(model) 
# make predictions 
expected = dataset.target 
predicted = model.predict(dataset.data) 
# summarize the fit of the model 
mse = np.mean((predicted-expected)**2) 
print model.intercept_, model.coef_, mse, 
print(model.score(dataset.data, dataset.target)) 

Có vẻ như đánh chặn và coef được xây dựng vào mô hình, và tôi chỉ cần gõ in (thứ hai đến dòng cuối cùng) để xem chúng. Điều gì về tất cả các đầu ra hồi quy chuẩn khác như R^2, điều chỉnh R^2, p giá trị, vv Nếu tôi đọc các ví dụ một cách chính xác, có vẻ như bạn phải viết một hàm/phương trình cho mỗi cái và sau đó in nó.

Vì vậy, không có đầu ra tóm tắt chuẩn cho các mô hình lin reg?

Ngoài ra, trong mảng in các đầu ra của các hệ số, không có tên biến nào được liên kết với mỗi hệ số này? Tôi chỉ nhận được mảng số. Có cách nào để in những nơi mà tôi nhận được một đầu ra của các hệ số và biến họ đi với?

sản lượng in My

LinearRegression(copy_X=True, fit_intercept=True, normalize=False) 
152.133484163 [ -10.01219782 -239.81908937 519.83978679 324.39042769 -792.18416163 
    476.74583782 101.04457032 177.06417623 751.9 67.62538639] 2859.69039877 
0.517749425413 

Nhờ người sử dụng scilearn.

+0

Nhiều số liệu đánh giá tiêu chuẩn có sẵn trong [ 'sklearn.metrics'] (http://scikit-learn.org/stable/modules/classes.html#sklearn-metrics-metrics). –

Trả lời

21

Không tồn tại báo cáo tóm tắt hồi quy kiểu R trong sklearn. Lý do chính là sklearn được sử dụng để mô hình hóa dự đoán/học máy và tiêu chí đánh giá dựa trên hiệu suất trên dữ liệu không nhìn thấy trước đó (chẳng hạn như dự đoán r^2 cho hồi quy).

Có tồn tại hàm tổng hợp cho phân loại được gọi là sklearn.metrics.classification_report để tính toán một số loại điểm (tiên đoán) trên mô hình phân loại.

Đối với một cách tiếp cận thống kê cổ điển hơn, hãy nhìn vào statsmodels.

Các vấn đề liên quan