Tôi đang sử dụng nltk, vì vậy tôi muốn tạo các văn bản tùy chỉnh của riêng mình giống như các văn bản mặc định trên nltk.books. Tuy nhiên, tôi vừa đứng dậy để phương pháp này nhưLàm cách nào để mã hóa một câu chuỗi trong NLTK?
my_text = ['This', 'is', 'my', 'text']
Tôi muốn khám phá cách nào để đầu vào của tôi "văn bản" như:
my_text = "This is my text, this is a nice way to input text."
Những phương pháp, python hoặc từ NLTK phép tôi làm điều này. Và quan trọng hơn, làm thế nào tôi có thể đánh giá thấp các ký hiệu chấm câu?
Ông có thể làm rõ, điều gì làm bạn có ý nghĩa bởi 'đánh giá thấp punctation symbols'? – quetzalcoatl
tôi nghĩ rằng anh ta có nghĩa là để tokenize câu đầu vào – alvas
Vâng, ví dụ nếu tôi đã làm: sentente = "Đây là câu của tôi, một câu là một biểu thức ngắn" Vì vậy, 'câu' và 'câu' sẽ hai yếu tố khác nhau ... – diegoaguilar