Tôi có một tập dữ liệu rất lớn (ds
). Một trong các cột của nó là Popularity
, thuộc loại factor
('Cao'/'Thấp').Đánh giá mô hình thống kê trong R
Tôi chia dữ liệu thành 70% và 30% để tạo bộ đào tạo (ds_tr
) và bộ kiểm tra (ds_te
).
Tôi đã tạo ra mô hình sau đây sử dụng một hồi qui logistic:
mdl <- glm(formula = popularity ~ . -url , family= "binomial", data = ds_tr)
sau đó tôi đã tạo ra một đối tượng predict
(sẽ làm điều đó một lần nữa cho ds_te
)
y_hat = predict(mdl, data = ds_tr - url , type = 'response')
Tôi muốn tìm giá trị chính xác tương ứng với ngưỡng ngưỡng 0.5 và tìm giá trị thu hồi tương ứng với ngưỡng ngưỡng 0.5, vì vậy tôi đã làm:
library(ROCR)
pred <- prediction(y_hat, ds_tr$popularity)
perf <- performance(pred, "prec", "rec")
Kết quả là một bảng của nhiều giá trị
str(perf)
Formal class 'performance' [package "ROCR"] with 6 slots
[email protected] x.name : chr "Recall"
[email protected] y.name : chr "Precision"
[email protected] alpha.name : chr "Cutoff"
[email protected] x.values :List of 1
.. ..$ : num [1:27779] 0.00 7.71e-05 7.71e-05 1.54e-04 2.31e-04 ...
[email protected] y.values :List of 1
.. ..$ : num [1:27779] NaN 1 0.5 0.667 0.75 ...
[email protected] alpha.values:List of 1
.. ..$ : num [1:27779] Inf 0.97 0.895 0.89 0.887 ...
Làm thế nào để tìm ra chính xác và thu hồi giá trị cụ thể tương ứng với một ngưỡng cắt 0,5?
Nâng cao giải thích và giải thích làm thế nào để có được giá trị đề nghị. – PereG