Tôi đang xem hướng dẫn này: https://www.dataquest.io/mission/74/getting-started-with-kaggleKFold trong python chính xác là gì?
Tôi đã tham gia phần 9, đưa ra các dự đoán. Trong đó có một số dữ liệu trong một dataframe gọi titanic, sau đó được phân chia trong nếp gấp sử dụng:
# Generate cross validation folds for the titanic dataset. It return the row indices corresponding to train and test.
# We set random_state to ensure we get the same splits every time we run this.
kf = KFold(titanic.shape[0], n_folds=3, random_state=1)
Tôi không chắc chắn những gì là nó chính xác làm và những gì loại đối tượng kf là. Tôi đã thử đọc tài liệu nhưng nó không giúp được nhiều. Ngoài ra, có ba nếp gấp (n_folds = 3), tại sao sau đó nó chỉ truy cập đào tạo và kiểm tra (và làm thế nào để tôi biết chúng được gọi là đào tạo và thử nghiệm) trong dòng này?
for train, test in kf:
Tôi hiểu. Dù n_folds là, bạn vẫn kết thúc chỉ với một thử nghiệm và một tập huấn luyện. Nếu n_folds là 2, thì bạn chỉ cần sử dụng một nửa dữ liệu để đào tạo và nửa còn lại để thử nghiệm, sau đó hoán đổi chúng. Tôi có hiểu chính xác điều này không? – user
Có. Bạn sẽ nhận được i'th (1 <= i <= n_fold) gấp dưới dạng kiểm tra và các nếp gấp còn lại là đào tạo. – qmaruf