10

Tôi đã đọc về cách sử dụng Phân tích giá trị số ít (SVD) để thực hiện Phân tích ngữ nghĩa tiềm ẩn (LSA) trong tập hợp văn bản. Tôi đã hiểu làm thế nào để làm điều đó, tôi cũng hiểu khái niệm toán học của SVD.Khái niệm phân tích ngữ nghĩa tiềm ẩn

Nhưng tôi không hiểu tại sao nó hoạt động áp dụng cho các cụm văn bản (Tôi tin rằng - phải có giải thích ngôn ngữ). Ai có thể giải thích cho tôi điều này với quan điểm ngôn ngữ?

Cảm ơn

+0

Đây có thể là một sự phù hợp tốt hơn ở cstheory.stackexchange.com. – templatetypedef

+0

Bạn đã đọc đoạn giới thiệu của http://en.wikipedia.org/wiki/Latent_semantic_analysis chưa? – borrible

+0

Xin chào, tôi cũng đã có cùng một nghi ngờ! là bắt buộc để giảm kích thước? tại sao chúng ta không thể sử dụng ma trận v để tìm sự giống nhau giữa các tài liệu và ma trận u để tìm sự giống nhau giữa các thuật ngữ? – CTsiddharth

Trả lời

9

Không có cách diễn đạt ngôn ngữ, không liên quan đến cú pháp, không xử lý các lớp tương đương, từ đồng nghĩa, từ đồng nghĩa, xuất phát vv. Hãy xem xét một "tài liệu" như một giỏ mua hàng: nó chứa một sự kết hợp của các từ (mua hàng). Và các từ có xu hướng xảy ra cùng với các từ "liên quan".

Ví dụ: Từ "ma túy" có thể xảy ra cùng với {tình yêu, bác sĩ, y học, thể thao, tội phạm}; mỗi điểm sẽ hướng bạn theo một hướng khác. Nhưng kết hợp với nhiều từ khác trong tài liệu, truy vấn của bạn có thể sẽ tìm thấy tài liệu từ một trường tương tự.

+1

Câu trả lời của bạn tốt hơn rất nhiều so với tôi. Và ví dụ * thuốc * là một cuộc chạy về nhà! –

4

Các từ xuất hiện cùng nhau (tức là gần hoặc trong cùng một tài liệu trong kho văn bản) đóng góp vào ngữ cảnh. Phân tích ngữ nghĩa tiềm ẩn về cơ bản nhóm các tài liệu tương tự trong một kho văn bản dựa trên mức độ tương đồng của chúng đối với nhau theo ngữ cảnh.

Tôi nghĩ ví dụ và cốt truyện từ tài liệu trên trang this sẽ giúp bạn hiểu.

3

Giả sử chúng ta có các thiết lập sau năm văn

  • d1: Romeo và Juliet.
  • d2: Juliet: O con dao găm hạnh phúc!
  • d3: Romeo chết do dao găm.
  • d4: “Sống tự do hoặc chết”, đó là khẩu hiệu của New-Hampshire.
  • d5: Bạn có biết, New-Hampshire ở New England.

và truy vấn tìm kiếm: chết, dagger.

Rõ ràng, d3 phải được xếp hạng cao nhất trong danh sách vì nó chứa cả hai phần tử chết, dao găm. Sau đó, d2 và d4 phải theo sau, mỗi từ chứa một từ truy vấn. Tuy nhiên, những gì về d1 và d5? Chúng có phải là được trả lại là kết quả có thể thú vị cho truy vấn này không? Như con người chúng ta biết rằng d1 là khá liên quan để truy vấn. Mặt khác, d5 không liên quan nhiều đến truy vấn. Vì vậy, chúng tôi muốn d1 nhưng không d5, hoặc nói cách khác, chúng tôi muốn d1 được xếp hạng cao hơn d5.

Câu hỏi đặt ra là: Máy có thể suy ra điều này không? Câu trả lời là có, LSI thực hiện chính xác điều đó. Trong ví dụ này, LSI sẽ có thể thấy thuật ngữ đó có liên quan đến d1 bởi vì nó xuất hiện cùng với các cụm từcủa d1 là Romeo và Juliet, theo d2 và d3 tương ứng.Ngoài ra, thuật ngữ chết có liên quan đến d1 và d5 vì nó xảy ra cùng với thuật ngữ d1 của Romeo và d5 của New-Hampshire trong d3 và d4, tương ứng. LSI cũng sẽ cân nhắc đúng các kết nối được phát hiện; d1 nhiều hơn có liên quan đến truy vấn

so với d5 vì d1 được kết nối gấp đôi với dao găm thông qua Romeo và Juliet và cũng kết nối với chết thông qua Romeo, trong khi d5 chỉ có kết nối duy nhất với truy vấn thông qua New-Hampshire .

tham khảo: Phân tích ngữ nghĩa tiềm ẩn (Alex Thomo)

Các vấn đề liên quan