2014-04-18 14 views
5

Tôi đang nghiên cứu mô hình Okapi BMS25. Tôi hiểu mọi thứ nhưng hai sự nhầm lẫn. Trong khi tính toán độ dài tài liệu (dl) và độ dài tài liệu trung bình (avdl). Tôi tìm thấy chiều dài tài liệu làĐộ dài tài liệu trung bình ở Okapi BM25

enter image description here

Vì vậy, nó là một tổng kết của từ khoá/thuật ngữ trong một tài liệu cụ thể. Nhưng khi tôi nhìn thấy def wiki của:

enter image description here

Vì vậy | D | là độ dài của tài liệu D trong các từ (nghĩa là tổng số từ đếm). Bây giờ, câu hỏi là gì dl thực sự?

Bây giờ, câu hỏi thứ hai làm thế nào để tính toán AVDL? (chỉ cần tính toán (doc1 + doc2 + ... N)/N trong đó N là tổng số tài liệu của tôi trong bộ sưu tập? (và avdl được cố định cho toàn bộ bộ sưu tập?)

Trả lời

6

Theo Joaquín Pérez-Iglesias trong Integrating the Probabilistic Model BM25/BM25F into Lucene, hàm số điểm R cần được xác định như sau:

enter image description here

như

  • occurs_t^d là tần số hạn t trong d,
  • l_d là tài liệu có độ dài d.
  • avl_d là chiều dài trung bình tài liệu cùng bộ sưu tập
  • k_1 là một tham số miễn phí thường 2 và b trong [0,1] (thường là 0,75).

Gán 0 đến b tương đương để tránh quá trình chuẩn hóa và do đó độ dài tài liệu sẽ không ảnh hưởng đến điểm số cuối cùng.

Nếu b mất 1, chúng tôi sẽ tiến hành chuẩn hóa toàn bộ chiều dài.

enter image description here

nơi N là số tài liệu trong bộ sưu tập và df là số tài liệu ở đâu xuất hiện thuật ngữ t.

+3

Thực sự tốt đẹp khi ai đó dành thời gian để giải thích toán học. Cheers –

+0

Idf (t) được tính vào công thức R (q, d) ở đâu? Nó được sử dụng ở đâu? – PaulSchell

Các vấn đề liên quan