Ví dụ, tôi có hàng tỷ cụm từ ngắn và tôi muốn các cụm từ tương tự nhau.cách tìm các câu/cụm từ tương tự trong R?
> strings.to.cluster <- c("Best Toyota dealer in bay area. Drive out with a new car today",
"Largest Selection of Furniture. Stock updated everyday" ,
" Unique selection of Handcrafted Jewelry",
"Free Shipping for orders above $60. Offer Expires soon",
"XXXX is where smart men buy anniversary gifts",
"2012 Camrys on Sale. 0% APR for select customers",
"Closing Sale on office desks. All Items must go"
)
giả định rằng vectơ này là hàng trăm nghìn hàng. Có một gói trong R để cụm các cụm từ này bằng ý nghĩa? hoặc ai đó có thể đề xuất một cách để xếp hạng các cụm từ "tương tự" theo nghĩa cho một cụm từ nhất định.
Bạn đề xuất định nghĩa "ý nghĩa" như thế nào? Những cụm từ mẫu nào của bạn nên được nhóm lại với nhau? – tripleee