Tôi đang nghiên cứu mô hình Okapi BMS25. Tôi hiểu mọi thứ nhưng hai sự nhầm lẫn. Trong khi tính toán độ dài tài liệu (dl) và độ dài tài liệu trung bình (avdl). Tôi tìm thấy chiều dài tài liệu làĐộ dài tài liệu trung bình ở Okapi BM25
Vì vậy, nó là một tổng kết của từ khoá/thuật ngữ trong một tài liệu cụ thể. Nhưng khi tôi nhìn thấy def wiki của:
Vì vậy | D | là độ dài của tài liệu D trong các từ (nghĩa là tổng số từ đếm). Bây giờ, câu hỏi là gì dl thực sự?
Bây giờ, câu hỏi thứ hai làm thế nào để tính toán AVDL? (chỉ cần tính toán (doc1 + doc2 + ... N)/N trong đó N là tổng số tài liệu của tôi trong bộ sưu tập? (và avdl được cố định cho toàn bộ bộ sưu tập?)
Thực sự tốt đẹp khi ai đó dành thời gian để giải thích toán học. Cheers –
Idf (t) được tính vào công thức R (q, d) ở đâu? Nó được sử dụng ở đâu? – PaulSchell