Tôi đang cố bắt đầu một dự án phân tích tình cảm và tôi sẽ sử dụng phương pháp dừng từ. Tôi đã thực hiện một số nghiên cứu và tôi thấy rằng nltk có stopwords nhưng khi tôi thực hiện lệnh có một lỗi.NLTK và Stopwords Fail #lookuperror
Những gì tôi làm là những điều sau đây, để biết đó là những từ mà NLTK sử dụng (giống như những gì bạn có thể tìm thấy ở đây http://www.nltk.org/book/ch02.html trong section4.1):
from nltk.corpus import stopwords
stopwords.words('english')
Nhưng khi tôi nhấn enter tôi có được
---------------------------------------------------------------------------
LookupError Traceback (most recent call last)
<ipython-input-6-ff9cd17f22b2> in <module>()
----> 1 stopwords.words('english')
C:\Users\Usuario\Anaconda\lib\site-packages\nltk\corpus\util.pyc in __getattr__(self, attr)
66
67 def __getattr__(self, attr):
---> 68 self.__load()
69 # This looks circular, but its not, since __load() changes our
70 # __class__ to something new:
C:\Users\Usuario\Anaconda\lib\site-packages\nltk\corpus\util.pyc in __load(self)
54 except LookupError, e:
55 try: root = nltk.data.find('corpora/%s' % zip_name)
---> 56 except LookupError: raise e
57
58 # Load the corpus.
LookupError:
**********************************************************************
Resource 'corpora/stopwords' not found. Please use the NLTK
Downloader to obtain the resource: >>> nltk.download()
Searched in:
- 'C:\\Users\\Meru/nltk_data'
- 'C:\\nltk_data'
- 'D:\\nltk_data'
- 'E:\\nltk_data'
- 'C:\\Users\\Meru\\Anaconda\\nltk_data'
- 'C:\\Users\\Meru\\Anaconda\\lib\\nltk_data'
- 'C:\\Users\\Meru\\AppData\\Roaming\\nltk_data'
**********************************************************************
Và, vì vấn đề này mọi thứ như thế này không thể chạy đúng (lấy các lỗi tương tự):
>>> from nltk.corpus import stopwords
>>> stop = stopwords.words('english')
>>> sentence = "this is a foo bar sentence"
>>> print [i for i in sentence.split() if i not in stop]
Bạn có biết điều gì có thể là vấn đề? Tôi phải sử dụng các từ trong tiếng Tây Ban Nha, bạn có gợi ý một phương pháp khác không? Tôi cũng nghĩ rằng sử dụng gói Goslate với bộ dữ liệu bằng tiếng Anh
Cảm ơn bạn đã đọc!
Đ .: Tôi sử dụng Ananconda
Hoặc, nếu bạn muốn tránh GUI và biết những gì bạn muốn tải xuống: '' 'nltk.download (" stopwords ")' '' – KLDavenport