Vì vậy, tôi hiện đang cố gắng vẽ khoảng tin cậy cho một mô hình tuyến tính. Tôi phát hiện ra tôi nên sử dụng predict.lm() cho điều này, nhưng tôi có một vài vấn đề thực sự hiểu chức năng và tôi không thích sử dụng các hàm mà không biết điều gì đang xảy ra. Tôi tìm thấy một số cách thực hiện về chủ đề này, nhưng chỉ với mã R tương ứng, không có lời giải thích thực sự nào. Đây là chức năng riêng của mình:Predict.lm() trong R - cách lấy các dải dự đoán không ổn định xung quanh các giá trị được gắn
## S3 method for class 'lm'
predict(object, newdata, se.fit = FALSE, scale = NULL, df = Inf,
interval = c("none", "confidence", "prediction"),
level = 0.95, type = c("response", "terms"),
terms = NULL, na.action = na.pass,
pred.var = res.var/weights, weights = 1, ...)
Bây giờ, những gì tôi đã hiểu biết rắc rối:
1) newdata
An optional data frame in which to look for variables
with which to predict. If omitted, the fitted values are used.
Mọi người dường như sử dụng newdata cho điều này, nhưng tôi không thể hoàn toàn hiểu được lý do tại sao. Để tính toán khoảng tin cậy, tôi rõ ràng cần dữ liệu mà khoảng thời gian này là dành cho (giống như số lần quan sát, trung bình của x vv), vì vậy không thể là ý nghĩa của nó. Nhưng sau đó: Nó có nghĩa là gì?
2) interval
Type of interval calculation.okay .. nhưng "none" là để làm gì?
3a) type
Type of prediction (response or model term).3b) terms
If type="terms", which terms (default is all terms)3a: Tôi do đó có thể nhận được khoảng tin cậy cho một biến cụ thể trong mô hình của tôi? Và nếu vậy, 3b là gì? Nếu tôi có thể xác định thuật ngữ trong 3a, nó sẽ không có ý nghĩa để làm điều đó trong 3b một lần nữa .. vì vậy tôi đoán tôi sai một lần nữa, nhưng tôi không thể hiểu tại sao.
Tôi đoán một số bạn có thể nghĩ: Tại sao bạn không thử dùng thử? Và tôi sẽ (ngay cả khi nó có thể sẽ không giải quyết mọi thứ ở đây), nhưng tôi bây giờ không biết làm thế nào để. Vì tôi không phải bây giờ những gì newdata là cho, tôi không biết làm thế nào để sử dụng nó và nếu tôi cố gắng, tôi không nhận được khoảng tin cậy đúng. Bằng cách nào đó nó là rất quan trọng làm thế nào bạn chọn dữ liệu đó, nhưng tôi chỉ không hiểu!
EDIT: Tôi muốn thêm rằng ý định của tôi là hiểu cách predict.làm việc. Bởi vì tôi có nghĩa là tôi không hiểu nếu nó hoạt động theo cách tôi nghĩ. Đó là nó tính toán y-hat (giá trị dự đoán) và hơn sử dụng thêm/trừ cho mỗi upr/lwr-bounds của khoảng thời gian để tính toán một số datapoints (trông giống như một dòng tự tin sau đó) ?? Sau đó, tôi sẽ undestand lý do tại sao nó là cần thiết để có cùng chiều dài trong newdata như trong mô hình tuyến tính.
Phần Chi tiết của tài liệu thảo luận về đối số 'newdata' ở độ dài nào đó. Phần nào của cuộc thảo luận đó vẫn còn khó hiểu? – joran
Tôi đoán đây là điều làm tôi bối rối: "predict đoán.lm tạo ra các giá trị dự đoán, thu được bằng cách đánh giá hàm hồi quy trong khung newdata" (trong phần giải thích chung) và "Nếu newdata bị bỏ qua các dự đoán dựa trên dữ liệu được sử dụng cho Phù hợp." cho newdata. Tại sao tôi sẽ cố gắng để có được khoảng tin cậy mà không được kết nối trong hồi quy thực tế của tôi? Đây là cách tôi hiểu câu này, vì vậy đây là điều làm tôi bối rối. Sau đó, nó giải thích cách thiếu giá trị được xử lý trong trường hợp đó, nhưng tôi đã đấu tranh với phần đầu tiên rồi! – lisa
Bạn có thể quan tâm đến các khoảng _prediction_ cho các quan sát mới. – joran