Tôi có danh sách khoảng 300 từ và một lượng lớn văn bản mà tôi muốn quét để biết số lần mỗi từ xuất hiện.Python: cách tốt nhất/hiệu quả để tìm danh sách các từ trong văn bản?
Tôi đang sử dụng các mô-đun re từ python:
for word in list_word:
search = re.compile(r"""(\s|,)(%s).?(\s|,|\.|\))""" % word)
occurrences = search.subn("", text)[1]
nhưng tôi muốn biết nếu có một cách hiệu quả hơn hoặc thêm thanh lịch để làm điều này?
bạn có thể sử dụng từ thay vì kiểm tra dấu cách và khoảng trắng xung quanh. '\ bWORD \ b' – mpen
Nếu bạn muốn vượt ra ngoài tần số từ và xem xét phân loại văn bản, bạn có thể muốn xem xét điều này: http://streamhacker.com/2010/06/16/text-classification-sentiment- phân tích-loại bỏ-thấp-thông tin-feature/ – monkut
Làm thế nào ** lớn ** có thể các văn bản được nếu bạn đang giữ nó trong bộ nhớ? – FMc