Tôi muốn sử dụng wordem lemmatizer trong python và tôi đã biết rằng thẻ pos mặc định là NOUN và nó không xuất ra bổ đề đúng cho động từ, trừ khi thẻ pos được chỉ định rõ ràng ĐỘNG TỪ.wordem lemmatization và pos gắn thẻ trong python
Câu hỏi của tôi là cách sắp xếp tốt nhất để thực hiện việc lemmatization ở trên một cách chính xác là gì?
Tôi đã gắn thẻ pos bằng cách sử dụng nltk.pos_tag
và tôi bị mất tích hợp các thẻ pos ngân hàng cây vào thẻ pos tương thích với wordnet. Vui lòng giúp
from nltk.stem.wordnet import WordNetLemmatizer
lmtzr = WordNetLemmatizer()
tagged = nltk.pos_tag(tokens)
Tôi nhận được thẻ đầu ra trong NN, JJ, VB, RB. Làm thế nào để thay đổi chúng thành các thẻ tương thích wordnet?
Ngoài ra, tôi có phải đào tạo nltk.pos_tag()
với kho dữ liệu được gắn thẻ hoặc tôi có thể sử dụng trực tiếp trên dữ liệu của mình để đánh giá không?
cũng nhớ tính từ vệ tinh =) 'ADJ_SAT = 's'' http://wordnet.princeton.edu/wordnet/man/wngloss.7WN.html – alvas
thẻ pos cho'' it'' trong '" I 'yêu nó.' 'chuỗi là '' PRP''.Hàm trả về một chuỗi rỗng mà lemmatizer không chấp nhận và ném một 'KeyError'. Điều gì có thể được thực hiện trong trường hợp đó? –
Có ai biết hiệu quả của việc này khi xử lý toàn bộ tài liệu không? – Ksofiac