2016-12-05 20 views
6

Tôi tìm thấy gensim có chức năng xếp hạng BM25. Tuy nhiên, tôi không thể tìm thấy hướng dẫn cách sử dụng nó.Làm thế nào để sử dụng gensim BM25 xếp hạng trong python

Trong trường hợp của tôi, tôi đã có một truy vấn. một vài tài liệu được truy xuất từ ​​công cụ tìm kiếm. Làm thế nào để sử dụng gensim BM 25 xếp hạng để so sánh các truy vấn và tài liệu để tìm một trong những tương tự nhất?

Tôi mới tham gia gensim. Cảm ơn.

truy vấn:

"experimental studies of creep buckling ." 

tài liệu 1:

" the 7 x 7 in . hypersonic wind tunnel at rae farnborough, part 1, design, instrumentation and flow visualization techniques . this is the first of three parts of the calibration report on the r.a.e. some details of the design and lay-out of the plant are given, together with the calculated performance figures, and the major components of the facility are briefly described . the instrumentation provided for the wind-tunnel is described in some detail, including the optical and other methods of flow visualization used in the tunnel . later parts will describe the calibration of the flow in the working-section, including temperature measurements . a discussion of the heater performance will also be included as well as the results of tests to determine starting and running pressure ratios, blockage effects, model starting loads, and humidity of the air flow ." 

tài liệu 2:

" the 7 in. x 7 in. hypersonic wind tunnel at r.a.e. farnborough part ii. heater performance . tests on the storage heater, which is cylindrical in form and mounted horizontally, show that its performance is adequate for operation at m=6.8 and probably adequate for flows at m=8.2 with the existing nozzles . in its present state, the maximum design temperature of 680 degrees centigrade for operation at m=9 cannot be realised in the tunnel because of heat loss to the outlet attachments of the heater and quick-acting valve which form, in effect, a large heat sink . because of this heat loss there is rather poor response of stagnation temperature in the working section at the start of a run . it is hoped to cure this by preheating the heater outlet cone and the quick-acting valve . at pressures greater than about 100 p.s.i.g. free convection through the fibrous thermal insulation surrounding the heated core causes the top of the heater shell to become somewhat hotter than the bottom, which results in /hogging/ distortion of the shell . this free convection cools the heater core and a vertical temperature gradient is set up across it after only a few minutes at high pressure . modifications to be incorporated in the heater to improve its performance are described ." 

tài liệu 3:

" supersonic flow at the surface of a circular cone at angle of attack . formulas for the inviscid flow properties on the surface of a cone at angle of attack are derived for use in conjunction with the m.i.t. cone tables . these formulas are based upon an entropy distribution on the cone surface which is uniform and equal to that of the shocked fluid in the windward meridian plane . they predict values for the flow variables which may differ significantly from the corresponding values obtained directly from the cone tables . the differences in the magnitudes of the flow variables computed by the two methods tend to increase with increasing free-stream mach number, cone angle and angle of attack ." 

tài liệu 4:

" theory of aircraft structural models subjected to aerodynamic heating and external loads . the problem of investigating the simultaneous effects of transient aerodynamic heating and external loads on aircraft structures for the purpose of determining the ability of the structure to withstand flight to supersonic speeds is studied . by dimensional analyses it is shown that .. constructed of the same materials as the aircraft will be thermally similar to the aircraft with respect to the flow of heat through the structure will be similar to those of the aircraft when the structural model is constructed at the same temperature as the aircraft . external loads will be similar to those of the aircraft . subjected to heating and cooling that correctly simulate the aerodynamic heating of the aircraft, except with respect to angular velocities and angular accelerations, without requiring determination of the heat flux at each point on the surface and its variation with time . acting on the aerodynamically heated structural model to those acting on the aircraft is determined for the case of zero angular velocity and zero angular acceleration, so that the structural model may be subjected to the external loads required for simultaneous simulation of stresses and deformations due to external loads ." 

Trả lời

10

tiết lộ đầy đủ tôi không có bất kỳ kinh nghiệm sử dụng bảng xếp hạng BM25, tuy nhiên tôi có khá nhiều kinh nghiệm với TF-IDF và LSI mô hình phân phối gensim, cùng với chỉ số tương đồng gensim của.

Tác giả thực hiện một công việc thực sự tốt trong việc giữ một codebase có thể đọc được, vì vậy nếu bạn gặp sự cố với bất cứ điều gì như thế này một lần nữa, tôi khuyên bạn chỉ cần nhảy vào mã nguồn.

Nhìn vào mã nguồn: https://github.com/RaRe-Technologies/gensim/blob/develop/gensim/summarization/bm25.py

Vì vậy, tôi khởi tạo một đối tượng BM25() với các tài liệu bạn dán ở trên.

Dường như người bạn cũ tốt của chúng tôi Radim không bao gồm một chức năng để tính toán average_idf cho chúng ta, mà không có vấn đề gì, chúng ta có thể chỉ plagarize dòng 65 cho nguyên nhân của chúng tôi:

average_idf = sum(map(lambda k: float(bm25.idf[k]), bm25.idf.keys()))/len(bm25.idf.keys())

Sau đó, tốt nếu tôi hiểu mục đích ban đầu của get_scores một cách chính xác, bạn sẽ nhận được mỗi điểm BM25 liên quan đến truy vấn ban đầu của bạn, đơn giản bằng cách làm

scores = bm_25_object.get_scores(query_doc, average_idf)

Trả về tất cả các điểm cho mỗi tài liệu, và sau đó, nếu tôi hiểu xếp hạng BM25 dựa trên những gì tôi đọc trên trang wikipedia này: https://en.wikipedia.org/wiki/Okapi_BM25

Bạn có thể chọn tài liệu có điểm số cao nhất như sau:

best_result = docs[scores.index(max(scores))]

Vậy tài liệu đầu tiên phải phù hợp nhất với truy vấn của bạn? Tôi hy vọng đó là những gì bạn đang mong đợi dù sao, và tôi hy vọng rằng điều này đã giúp trong một số năng lực. Chúc may mắn!

+3

Và đầu vào cho BM25() là 'corpus = [dictionary.doc2bow (văn bản) cho văn bản trong văn bản]', đầu vào 'doc' cho 'get_scores (doc, avg_idf)' là một mảng của dictionary.doc2bow (từ) – Lewen

Các vấn đề liên quan