2012-03-18 34 views
8

Tôi đang cố gắng tìm hiểu cách xử lý ngôn ngữ tự nhiên (tiếng Anh) bằng NLTK và Python. Có cách nào để có được dạng thức vô tận của động từ trong hoặc sau khi gắn thẻ POS.Cách lấy dạng thức đầu tiên của động từ sử dụng NLTK (gắn thẻ pos)

Ví dụ:

  • là (VBZ) => để được
  • cung cấp (VBN) => để cung cấp
  • sử dụng (VBG) => để sử dụng
+0

ot câu trả lời đầy đủ, nhưng tôi sẽ điều tra WordNet (vâng, NLTK đã có WordNet dưới dạng tải xuống) – winwaed

Trả lời

15

Đóng , bạn cần phải thêm 'vào' ở đầu:

>>> from nltk.stem.wordnet import WordNetLemmatizer 
>>> lemmatizer = WordNetLemmatizer() 
>>> lemmatizer.lemmatize('is', 'v') 
'be' 
>>> lemmatizer.lemmatize('provided', 'v') 
'provide' 
>>> lemmatizer.lemmatize('using', 'v') 
'use' 
Các vấn đề liên quan