Tôi có một loạt các mục văn bản- HTML thô từ cơ sở dữ liệu MySQL. Tôi muốn tìm các cụm từ phổ biến nhất trong các mục này (không phải là cụm từ phổ biến nhất, và lý tưởng nhất là không thực thi đối sánh từng từ).Cách trích xuất các cụm từ phổ biến/quan trọng từ một loạt các mục nhập văn bản
dụ của tôi là bất kỳ đánh giá về Yelp.com, cho thấy 3 đoạn từ hàng trăm ý kiến của một nhà hàng nào đó, trong các định dạng:
"Hãy thử những chiếc bánh hamburger" (trong 44 đánh giá)
ví dụ , "Xem lại nổi bật" của trang này:
http://www.yelp.com/biz/sushi-gen-los-angeles/
tôi có NLTK cài đặt và tôi đã chơi đùa với nó một chút, nhưng tôi thành thật choáng ngợp bởi các tùy chọn. Điều này có vẻ giống như một vấn đề khá phổ biến và tôi đã không thể tìm thấy một giải pháp đơn giản bằng cách tìm kiếm ở đây.
với nltk, thật dễ dàng để có được bigrams và trigram, nhưng những gì tôi đang tìm kiếm là những cụm từ có nhiều khả năng từ 7 đến 8 từ.Tôi đã không tìm ra cách để làm cho nltk (hoặc một số phương pháp khác) cung cấp 'octograms' và ở trên. – arronsky