Tôi đã có một số mã hoạt động tốt khi xóa dấu câu/số bằng cách sử dụng cụm từ thông dụng trong python, tôi phải thay đổi mã một chút để danh sách dừng hoạt động, không đặc biệt quan trọng. Dù sao, bây giờ các dấu chấm câu không được loại bỏ và thẳng thắn tôi đang bối rối là tại sao.Xóa dấu chấm câu/số khỏi sự cố văn bản
import re
import nltk
# Quran subset
filename = raw_input('Enter name of file to convert to ARFF with extension, eg. name.txt: ')
# create list of lower case words
word_list = re.split('\s+', file(filename).read().lower())
print 'Words in text:', len(word_list)
# punctuation and numbers to be removed
punctuation = re.compile(r'[-.?!,":;()|0-9]')
for word in word_list:
word = punctuation.sub("", word)
print word_list
Bất kỳ con trỏ nào về lý do tại sao nó không hoạt động sẽ tuyệt vời, tôi không có chuyên gia về python để nó có thể là điều ngu xuẩn. Cảm ơn.