Vì vậy, tôi đã tự hỏi nếu có ai có ý tưởng làm thế nào để kết hợp nhiều thuật ngữ để tạo ra một thuật ngữ duy nhất trong các thẻ trong NLTK..Làm cách nào để thêm các từ ghép vào trình gắn thẻ trong NLTK?
Ví dụ, khi tôi làm:
nltk.pos_tag(nltk.word_tokenize('Apple Incorporated is the largest company'))
Nó mang lại cho tôi:
[('Apple', 'NNP'), ('Incorporated', 'NNP'), ('is', 'VBZ'), ('the', 'DT'), ('largest', 'JJS'), ('company', 'NN')]
Làm thế nào để làm cho nó đặt 'Apple' và 'Thành lập' Cùng là ('Apple Incorporated','NNP')
bạn sẽ cần một trình phân tích cú pháp/phân tích cú pháp và sau đó concat các khối/cụm từ với '_', sau đó flatten cấu trúc thành tuples một lần nữa. – alvas