VẤN ĐỀ:Matching tập tin gần nhất trong trao chữ ASCII tập tin
Tôi có khoảng 20 tập tin văn bản ASCII, từng có một kích thước nhỏ hơn 10^9 Bytes .Another tập tin văn bản ASCII (nói FOO) được đưa ra . Chương trình là chiến lược phù hợp với nội dung của FOO với 20 tệp nhất định và in tên tệp kết hợp CLOSEST. Nội dung của FOO chỉ có thể khớp một phần.
Kể từ kích thước tập tin là quá lớn, tôi tự hỏi:
1.How để sử dụng Thông tin Retrieval (kể từ khi tôi không biết nhiều về IR)
cấu trúc dữ liệu2.which tôi nên sử dụng để lưu trữ thông tin đó
3. Thuật toán tốt nhất để thực hiện nó là gì.
Tôi biết tôi đang yêu cầu quá nhiều, Nhưng thực sự tôi đang bị mắc kẹt ở vấn đề này và không thể tìm ra cách tiếp cận. Bất kỳ trợ giúp nào sẽ được đánh giá cao.Cảm ơn!
thế nào về quét tất cả các file và tạo ra một vector chiều của từ cho mỗi tập tin văn bản, sau đó bạn có thể tính toán góc giữa documets và chọn gần nhất? –
Cách đơn giản hơn là sử dụng chỉ mục Jaccard http://en.wikipedia.org/wiki/Jaccard_index, mặc dù nó có thể không cung cấp độ chính xác giống như độ tương tự cosin. Lưu ý rằng kỹ thuật này hoạt động trên số lượng từ được chuẩn hóa. – decden
Bạn thực sự cần phải xác định "gần nhất". Nếu tệp kiểm tra khớp với tất cả các từ trong tệp # 1, nhưng với các từ theo thứ tự ngược lại (tức là "con cáo màu đỏ nhanh" và "con cáo màu đỏ nhanh"), nó có "gần hơn" không nếu nó khớp với tệp # 2 chính xác để 30% đầu tiên, nhưng sau đó có rất ít điểm tương đồng sau đó? Trường hợp có ý nghĩa không? Không gian trắng?Nếu không có một định nghĩa "gần nhất", bạn sẽ có một thời gian khó khăn quyết định những gì để so sánh. –