Tôi đã sử dụng hệ thống xếp hạng Elo và Glicko cùng với kết quả cho các trận đấu để tạo xếp hạng cho người chơi. Trước mỗi trận đấu, tôi có thể tạo ra một kỳ vọng (một điểm nổi giữa 0 và 1) cho mỗi người chơi dựa trên xếp hạng tương ứng của họ. Tôi muốn kiểm tra mức độ chính xác mong muốn đây là, vì hai lý do:Làm thế nào để đo lường tính chính xác của các dự đoán bằng cách sử dụng Python/Pandas?
- Để so sánh hệ thống đánh giá sự khác biệt
- Để biến điều chỉnh (như kfactor trong Elo) được sử dụng để tính toán xếp hạng
Có được một vài sự khác biệt từ cờ đáng được nhận thức của:
- kết quả có thể là chiến thắng (mà tôi đang điều trị như 1.0), tổn thất (0.0), với rất thỉnh thoảng (< 5%) d raws (0,5 mỗi). Mỗi trận đấu cá nhân được đánh giá, không phải là một chuỗi như trong cờ vua.
- Người chơi có trận đấu ít - nhiều người có ít hơn 10, vài đi qua 25, tối đa là 75
Nghĩ chức năng thích hợp là "tương quan", tôi đã cố gắng tạo ra một DataFrame chứa dự đoán trong một cột (một float giữa 0, 1) và kết quả trong khác (1 | 0.5 | 0) và sử dụng corr()
, nhưng dựa trên đầu ra, tôi không chắc chắn nếu điều này là chính xác.
Nếu tôi tạo Khung dữ liệu chứa các kỳ vọng và kết quả chỉ cho người chơi đầu tiên trong trận đấu (kết quả sẽ luôn là 1,0 hoặc 0,5 do nguồn dữ liệu của tôi, người thua sẽ không bao giờ được hiển thị trước), corr() trả về rất thấp : < 0,05. Tuy nhiên, nếu tôi tạo một chuỗi có hai hàng cho mỗi trận đấu và chứa cả kỳ vọng và kết quả cho mỗi người chơi (hoặc, cách khác, chọn ngẫu nhiên người chơi nào sẽ nối thêm, vì vậy kết quả sẽ là 0, 0,5 hoặc 1), corr() cao hơn nhiều: ~ 0,15 đến 0,30. Tôi không hiểu tại sao điều này lại tạo nên sự khác biệt, điều đó khiến tôi tự hỏi liệu tôi có sử dụng sai chức năng hay sử dụng sai hàm hoàn toàn không.
Nếu nó giúp, đây là một số thực (không phải ngẫu nhiên) dữ liệu mẫu: http://pastebin.com/eUzAdNij
Tôi nghĩ bạn nên thêm mã của bạn, nếu không nó không phải là dễ dàng để biết những gì bạn đang làm chính xác – ead
Có lẽ bạn nên tham gia số lượng kết quả được dự đoán chính xác như phép đo, tương quan có thể không tốt ở đây – ead