2016-08-16 16 views
5

Tôi có 2 văn bản như sautương cú pháp/Khoảng cách giữa 2 câu/chuỗi/văn bản sử dụng NLTK

Text1: John thích táo

Text2: Mike ghét cam

Nếu bạn kiểm tra ở trên 2 văn bản, cả hai đều tương tự như cú pháp nhưng ngữ nghĩa có ý nghĩa khác.

Tôi muốn tìm

1) khoảng cách cú pháp giữa 2 văn bản

2) khoảng cách Semantic giữa 2 văn bản

Có cách nào để làm điều này sử dụng NLTK, như I am newbie đến NLP ?

Trả lời

2

Có, nhưng không giới hạn ở nltk. Một cách sử dụng cho khoảng cách cú pháp, là một phần của Speech gắn thẻ (POS Tagging) mà bản đồ mỗi từ của câu để một từ khóa cụ thể: https://en.wikipedia.org/wiki/Part-of-speech_tagging

Ví dụ nó là map câu của bạn để sau đây:
Text1: Danh từ Động từ Danh từ
Text2: Noun Verb Noun

Sau đó, bạn có thể đo khoảng cách của hai câu này.


Và đối với ngữ nghĩa, bạn cần ròng từ ngữ nghĩa và tìm từ đồng nghĩa cho mỗi từ của câu, sau đó cố gắng tìm ra giao điểm của các từ đồng nghĩa của các từ trong mỗi câu

+0

Đây là câu trả lời hay. Có lẽ bạn có thể đề xuất phương pháp so sánh OP cho trường hợp thứ nhất và một từ hoặc tài nguyên từ cụ thể? Tôi chắc rằng các độc giả trong tương lai sẽ quan tâm đến quá – slezica

+0

Thanx @Masoud để cung cấp hướng, chỉ cần có một vài câu hỏi, Chúng ta có bất kỳ thư viện tích hợp nào để tính khoảng cách SYNTACTIC trong nltk không? Nếu không thì làm thế nào để đo khoảng cách cho cùng? bất kỳ tài liệu tham khảo/tài nguyên nào bạn có thể cung cấp? –

3

Đối với ngữ nghĩa, bạn có thể muốn để thử word2vec. Bạn có thể trung bình một cách an toàn sự giống nhau của các từ trong câu hoặc bạn có thể đưa ra cách của riêng bạn để cân nhắc các từ theo cú pháp của nó.

from gensim.models import Word2Vec 

model = Word2Vec.load(path/to/your/model) 

model.similarity('apple', 'orange') 
+0

bất kỳ tài liệu tham khảo nào bạn có thể cung cấp cho khoảng cách cú pháp? Chúng tôi có hỗ trợ thư viện tích hợp nào không? –

Các vấn đề liên quan