Giả sử chúng ta có các thiết lập sau năm văn
- d1: Romeo và Juliet.
- d2: Juliet: O con dao găm hạnh phúc!
- d3: Romeo chết do dao găm.
- d4: “Sống tự do hoặc chết”, đó là khẩu hiệu của New-Hampshire.
- d5: Bạn có biết, New-Hampshire ở New England.
và truy vấn tìm kiếm: chết, dagger.
Rõ ràng, d3 phải được xếp hạng cao nhất trong danh sách vì nó chứa cả hai phần tử chết, dao găm. Sau đó, d2 và d4 phải theo sau, mỗi từ chứa một từ truy vấn. Tuy nhiên, những gì về d1 và d5? Chúng có phải là được trả lại là kết quả có thể thú vị cho truy vấn này không? Như con người chúng ta biết rằng d1 là khá liên quan để truy vấn. Mặt khác, d5 không liên quan nhiều đến truy vấn. Vì vậy, chúng tôi muốn d1 nhưng không d5, hoặc nói cách khác, chúng tôi muốn d1 được xếp hạng cao hơn d5.
Câu hỏi đặt ra là: Máy có thể suy ra điều này không? Câu trả lời là có, LSI thực hiện chính xác điều đó. Trong ví dụ này, LSI sẽ có thể thấy thuật ngữ đó có liên quan đến d1 bởi vì nó xuất hiện cùng với các cụm từcủa d1 là Romeo và Juliet, theo d2 và d3 tương ứng.Ngoài ra, thuật ngữ chết có liên quan đến d1 và d5 vì nó xảy ra cùng với thuật ngữ d1 của Romeo và d5 của New-Hampshire trong d3 và d4, tương ứng. LSI cũng sẽ cân nhắc đúng các kết nối được phát hiện; d1 nhiều hơn có liên quan đến truy vấn
so với d5 vì d1 được kết nối gấp đôi với dao găm thông qua Romeo và Juliet và cũng kết nối với chết thông qua Romeo, trong khi d5 chỉ có kết nối duy nhất với truy vấn thông qua New-Hampshire .
tham khảo: Phân tích ngữ nghĩa tiềm ẩn (Alex Thomo)
Nguồn
2014-12-02 06:31:23
Đây có thể là một sự phù hợp tốt hơn ở cstheory.stackexchange.com. – templatetypedef
Bạn đã đọc đoạn giới thiệu của http://en.wikipedia.org/wiki/Latent_semantic_analysis chưa? – borrible
Xin chào, tôi cũng đã có cùng một nghi ngờ! là bắt buộc để giảm kích thước? tại sao chúng ta không thể sử dụng ma trận v để tìm sự giống nhau giữa các tài liệu và ma trận u để tìm sự giống nhau giữa các thuật ngữ? – CTsiddharth