2012-05-07 44 views
7

Tôi đang tìm thông số kỹ thuật của định dạng TREC. Tôi đã googling rất nhiều nhưng tôi đã không tìm thấy một đầu mối.Định dạng TREC là gì?

Có ai biết nơi tìm bất kỳ thông tin nào về nó không?

Trả lời

3

AFAIK TREC là viết tắt cho chữ NIST của hồi Hội nghị. Để cho người lập chỉ mục biết nơi các ranh giới tài liệu nằm trong các tệp, mỗi tài liệu phải bắt đầu tài liệu và kết thúc các thẻ tài liệu. Các thẻ này tương tự như các thẻ HTML hoặc XML và thực sự là định dạng cho các tài liệu TREC.

TrecParser: Trình phân tích cú pháp này nhận dạng văn bản trong các trường TEXT, HL, HEAD, HEADLINE, TTL và LP.

Nguồn: TREC Wikipedia

Nguồn: Lemur Guide

0

Đây cũng là định dạng tệp được IBM Watson sử dụng để nhập kiến ​​thức

Các vấn đề liên quan