Nếu bạn có một số lượng nhỏ dữ liệu, bạn cần ít số lượng các giai đoạn hơn để đạt được tỷ lệ cảnh báo sai theo yêu cầu mà bạn đã thiết lập. Điều này có nghĩa là trình phân loại tầng là "đủ tốt" để nó không phải phát triển thêm nữa. Tổng tỷ lệ dương tính giả thực sự nhân với tỷ lệ của mỗi giai đoạn, do đó, sau một thời điểm, giá trị đạt được.
Trong tùy chọn của bạn, bạn đặt nó lên tới 0,9. Xem xét làm cho nó cao hơn, như 0,95 hoặc nhiều hơn.
Ngoài ra, bộ dữ liệu của bạn còn nhỏ nên thuật toán sẽ nhận được kết quả tốt hơn khi xác thực chúng trong khi đào tạo. Bộ dữ liệu càng nhỏ, việc phân loại được đào tạo dễ dàng hơn, vì vậy cần ít giai đoạn hơn. Nhưng điều này không có nghĩa là nó tốt hơn khi chạy trên dữ liệu thực. Ngoài ra, nếu bạn giữ kích thước đào tạo thấp và đặt tỷ lệ cao hơn, hãy xem xét trình phân loại sẽ cần thêm các giai đoạn để hoàn thành và sẽ phức tạp hơn, nhưng rất có thể nó sẽ được đào tạo quá mức trên tập huấn luyện.
Để kết luận, nếu bản chất của tích cực và tiêu cực của bạn mà bạn có, làm cho chúng dễ dàng tách biệt, thì bạn không cần quá nhiều mẫu. Tất nhiên điều đó phụ thuộc vào những gì bạn đang đào tạo các thuật toán cho. Với số lượng mẫu của bạn, 10 giai đoạn bạn đặt là rất nhiều, vì vậy thuật toán chấm dứt sớm hơn (nó không nhất thiết phải là xấu).
Khi tôi luyện mặt, tôi nghĩ rằng tôi có khoảng 1 nghìn điểm tích cực (bao gồm tất cả phép quay/độ lệch) và 2-3 nghìn âm, cần phân loại khoảng 11-13 cấp, nếu tôi nhớ chính xác .
Hướng dẫn của Naotoshi Neo đã giúp tôi rất nhiều.
Ngoài ra, những gì tôi nhận thấy bây giờ, như Safir đã đề cập, bạn có quá ít mẫu âm so với mẫu dương tính. Nên ít nhất bằng nhau về số lượng, tốt hơn là khoảng 1,5 - 2 lần so với dương tính.
có vẻ như có một tính năng tách biệt hoàn toàn các mặt tích cực khỏi âm bản, vì vậy bạn nhận được HR = 1 và FA = 0. vấn đề của bạn là cực kỳ dễ dàng hoặc không được đại diện bởi dữ liệu của bạn. –