2010-09-16 32 views

Trả lời

24

Nếu bạn không có đủ dữ liệu để huấn luyện thuật toán, bạn có thể tăng kích thước tập luyện của bạn bằng cách (chọn ngẫu nhiên) các mục ngẫu nhiên và nhân đôi chúng (thay thế).

35

Lấy mẫu thời gian trong ngày mà bạn thức dậy vào thứ Bảy. Một số tối thứ Sáu bạn có một vài đồ uống quá nhiều, vì vậy bạn thức dậy sớm (nhưng trở lại giường). Những ngày khác bạn thức dậy vào một thời điểm bình thường. những ngày khác bạn ngủ trong

Dưới đây là kết quả:.

[3.1, 4.8, 6.3, 6.4, 6.6, 7.3, 7.5, 7.7, 7.9, 10.1]

thời gian trung bình là gì mà bạn thức dậy?

Vâng, đó là 6.8 (giờ hoặc 6:48). Một liên lạc sớm cho tôi.

Dự đoán tốt như thế nào khi bạn thức dậy vào Thứ Bảy tới? Bạn có thể định lượng được sai lầm của mình không?

Đó là một mẫu khá nhỏ và chúng tôi không chắc chắn về sự phân bố của quy trình cơ bản, vì vậy có thể không nên sử dụng các kỹ thuật thống kê tham số chuẩn & dao găm ;.

Tại sao chúng ta không lấy mẫu ngẫu nhiên của mẫu của chúng tôi, và tính giá trị trung bình và lặp lại điều này? Điều này sẽ cho chúng ta ước tính mức độ ước tính của chúng tôi tồi tệ đến mức nào.

Tôi đã làm điều này nhiều lần, và giá trị trung bình là giữa 5,98 và 7,8

này được gọi là bootstrap, và nó lần đầu tiên được đề cập bởi Bradley Efron vào năm 1979.

Một biến thể được gọi là jackknife, nơi bạn lấy mẫu tất cả trừ một trong các tập dữ liệu của bạn, lấy giá trị trung bình và lặp lại. Giá trị của jackknife là 6.8 (giống như trung bình số học) và dao động từ 6.4 đến 7.2.

Biến thể khác được gọi là xác thực chéo, trong đó bạn (ngẫu nhiên) chia bộ dữ liệu thành các phần có kích thước bằng nhau, tính giá trị trung bình của tất cả trừ một phần và lặp lại k lần. Ý nghĩa xác thực chéo 5 lần là 6,8 và nằm trong khoảng từ 4 đến 9.

& dagger; Phân phối này xảy ra là Bình thường. Khoảng tin cậy 95% trung bình là 5,43 đến 8,11, hợp lý gần nhưng lớn hơn giá trị trung bình của bootstrap.

+0

Bất kỳ giấy tờ quan trọng/suy nghĩ về thiên vị có thể được giới thiệu bởi bootstrapping? –

+1

Tôi sẽ dành thời gian để đọc bản gốc: http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf –

Các vấn đề liên quan