gần đây tôi đã đi qua thuật ngữ này, nhưng thực sự không có ý tưởng những gì nó đề cập đến. Tôi đã tìm kiếm trực tuyến, nhưng với ít được. Cảm ơn.dữ liệu được khởi động trong khai thác dữ liệu là gì?
Trả lời
Nếu bạn không có đủ dữ liệu để huấn luyện thuật toán, bạn có thể tăng kích thước tập luyện của bạn bằng cách (chọn ngẫu nhiên) các mục ngẫu nhiên và nhân đôi chúng (thay thế).
Trong bootstrapping học máy là đào tạo lặp lại trên một bộ đã biết. http://en.wikipedia.org/wiki/Bootstrapping_(machine_learning)
Lấy mẫu thời gian trong ngày mà bạn thức dậy vào thứ Bảy. Một số tối thứ Sáu bạn có một vài đồ uống quá nhiều, vì vậy bạn thức dậy sớm (nhưng trở lại giường). Những ngày khác bạn thức dậy vào một thời điểm bình thường. những ngày khác bạn ngủ trong
Dưới đây là kết quả:.
[3.1, 4.8, 6.3, 6.4, 6.6, 7.3, 7.5, 7.7, 7.9, 10.1]
thời gian trung bình là gì mà bạn thức dậy?
Vâng, đó là 6.8 (giờ hoặc 6:48). Một liên lạc sớm cho tôi.
Dự đoán tốt như thế nào khi bạn thức dậy vào Thứ Bảy tới? Bạn có thể định lượng được sai lầm của mình không?
Đó là một mẫu khá nhỏ và chúng tôi không chắc chắn về sự phân bố của quy trình cơ bản, vì vậy có thể không nên sử dụng các kỹ thuật thống kê tham số chuẩn & dao găm ;.
Tại sao chúng ta không lấy mẫu ngẫu nhiên của mẫu của chúng tôi, và tính giá trị trung bình và lặp lại điều này? Điều này sẽ cho chúng ta ước tính mức độ ước tính của chúng tôi tồi tệ đến mức nào.
Tôi đã làm điều này nhiều lần, và giá trị trung bình là giữa 5,98 và 7,8
này được gọi là bootstrap, và nó lần đầu tiên được đề cập bởi Bradley Efron vào năm 1979.
Một biến thể được gọi là jackknife, nơi bạn lấy mẫu tất cả trừ một trong các tập dữ liệu của bạn, lấy giá trị trung bình và lặp lại. Giá trị của jackknife là 6.8 (giống như trung bình số học) và dao động từ 6.4 đến 7.2.
Biến thể khác được gọi là xác thực chéo, trong đó bạn (ngẫu nhiên) chia bộ dữ liệu thành các phần có kích thước bằng nhau, tính giá trị trung bình của tất cả trừ một phần và lặp lại k lần. Ý nghĩa xác thực chéo 5 lần là 6,8 và nằm trong khoảng từ 4 đến 9.
& dagger; Phân phối này xảy ra là Bình thường. Khoảng tin cậy 95% trung bình là 5,43 đến 8,11, hợp lý gần nhưng lớn hơn giá trị trung bình của bootstrap.
Bất kỳ giấy tờ quan trọng/suy nghĩ về thiên vị có thể được giới thiệu bởi bootstrapping? –
Tôi sẽ dành thời gian để đọc bản gốc: http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf –
- 1. Khai thác dữ liệu Java là gì, JDM?
- 2. Tình hình khai thác dữ liệu
- 3. Động cơ và khung công tác khai thác dữ liệu?
- 4. Khai thác dữ liệu trong ứng dụng Django/Postgres
- 5. Khai thác dữ liệu từ góc nhìn của nhà phát triển là gì?
- 6. lớn khai thác dữ liệu quy mô với clojure
- 7. Bạn sử dụng công cụ khai thác dữ liệu nào?
- 8. Siêu dữ liệu trong .NET là gì?
- 9. Dữ liệu cách được lưu trữ trong * .npy là gì?
- 10. Dữ liệu động liên kết dữ liệu
- 11. "Dữ liệu khẩn cấp" là gì?
- 12. Dữ liệu CG Raster là gì?
- 13. Loại dữ liệu PVOID là gì?
- 14. Phiên cơ sở dữ liệu là gì?
- 15. Tùy chỉnh chú thích dữ liệu trong dữ liệu động
- 16. Mô hình dữ liệu khởi động trong Ember?
- 17. Loại dữ liệu uintptr_t là gì
- 18. Hadoop là cơ sở dữ liệu lưu trữ tài liệu
- 19. Dữ liệu bài đăng thô là gì
- 20. Chuẩn hóa dữ liệu là gì?
- 21. Các loại dữ liệu JavaScript là gì?
- 22. Ràng buộc dữ liệu là gì?
- 23. kiểu dữ liệu chưa được ký là gì?
- 24. Mã & theo dõi/triển khai dữ liệu
- 25. hiển thị dữ liệu khi sử dụng khung khởi động
- 26. Dò web, sàng lọc màn hình, mẹo khai thác dữ liệu?
- 27. Khai thác dữ liệu từ một tập tin XML đơn giản
- 28. Cột Z_ENT trong cơ sở dữ liệu SQLite được tạo bởi Dữ liệu cốt lõi là gì?
- 29. Khai báo socket là gì, trong cơ sở dữ liệu Ruby on Rails.yml?
- 30. Dữ liệu blob được xuất khác với dữ liệu DB
không phải là siêu hữu ích khi chỉ cung cấp liên kết đến wikipedia. nó khá dễ dàng để tìm thấy trên của riêng bạn :) –