Python: Clustering Công cụ Tìm kiếm Từ khóaPython: Clustering Công cụ Tìm kiếm Từ khóa
Hi, Tôi có một CSV, lên đến 20.000 hàng (Tôi đã có 100.000 cho các trang web khác nhau), mỗi hàng có chứa một từ khóa giới thiệu (tức một từ khóa ai đó đã nhập vào công cụ tìm kiếm để tìm trang web được đề cập) và một số lượt truy cập.
Những gì tôi đang tìm kiếm là cụm các từ khóa này thành các cụm "ý nghĩa tương tự" và tạo phân cấp các cụm (được cấu trúc theo thứ tự tổng số tìm kiếm trên mỗi cụm).
Một ví dụ cụm - "womens quần áo" - lý tưởng sẽ chứa các từ khóa cùng những dòng này: womens quần áo, 1000 phụ nữ mặc, 300 womens quần áo, 50 phụ nữ quần áo, 6 womens mặc, 2
Tôi có thể tìm cách sử dụng một cái gì đó giống như Bộ công cụ ngôn ngữ tự nhiên Python: http://www.nltk.org/ và WordNet, nhưng tôi đoán rằng đối với một số trang web, từ khóa giới thiệu sẽ là các từ/cụm từ mà WordNet không biết gì cả. Ví dụ, nếu trang web là một trang web nổi tiếng, WordNet khó có thể biết gì về "Lady Gaga", tình hình tồi tệ hơn nếu trang web là một trang web tin tức.
Vì vậy, tôi cũng đoán do đó giải pháp phải là giải pháp có vẻ chỉ sử dụng dữ liệu nguồn.
Truy vấn của tôi rất giống với truy vấn được nêu tại How to cluster search engine keywords?, chỉ tôi đang tìm nơi nào đó để bắt đầu nhưng sử dụng Python thay vì Java.
Tôi cũng tự hỏi liệu Google Predict và/hoặc Google Refine có thể sử dụng được hay không.
Dù sao, bất kỳ suy nghĩ/ý kiến hoan nghênh nhất,
Cảm ơn, C
Không thể giúp đỡ, nhưng rao bán riêng [câu trả lời cho một câu hỏi liên quan] của tôi (http://stackoverflow.com/questions/4787984/i-want-to-get-related-searches-or-keywords). – 9000