2011-09-11 21 views
8

Hiện đang thiết kế CMS để sử dụng trên trang web của tôi. Tôi tự hỏi liệu có bất kỳ thư viện miễn phí nào có sẵn để tạo thẻ dựa trên nội dung hay không.Thư viện hiệu quả để đề xuất từ ​​khóa cho nội dung là gì?

Ví dụ

Tôi thích cây. Cây là những cây có lá. Lá trên cây có thể là nhiều màu.

sẽ tạo ra các thẻ cây.

Thư viện phải là PHP hoặc JS.

EDIT 1:

Tôi đã tìm thấy một thư viện đơn giản cho một nửa nhiệm vụ của tôi - http://www.cafewebmaster.com/get-top-100-words-keywords-text-php

Tôi đã chỉnh sửa những gì các thông số kỹ thuật thư viện nên có (nhờ sự hướng dẫn của @NullUserException) -

  • Đếm tất cả các từ (bỏ qua trường hợp và inflections), ném ra các từ dừng và chọn những từ có tần số cao nhất

  • Chỉnh sửa văn bản để làm cho các từ cụ thể hơn cho thể loại (có thể có tần số thấp hơn), có giá trị cao hơn. Ví dụ: trong ví dụ - 'nhiều màu' sẽ trở thành giá trị cao hơn vì nó cụ thể hơn cho chủ đề. Tuy nhiên nó phải bao gồm một tiền tố cho biết nó liên quan đến chủ đề (nó sẽ trở thành lá nhiều màu).

EDIT 2:

Thuật toán nên loại bỏ từ mà có ít hơn 3 ký tự trừ họ đang ở thủ đô hoặc định dạng khác

+2

Giải pháp đơn giản: đếm tất cả các từ (bỏ qua trường hợp và các thay đổi), ném ra [stop words] (http://en.wikipedia.org/wiki/Stop_words) và chọn những từ có số lượng cao nhất. – NullUserException

+0

Đó là một nửa những gì tôi cần, nửa còn lại đang sử dụng những từ đó và tìm các phiên bản cụ thể hơn. Ví dụ: Việc sử dụng 'nhiều màu' trong ví dụ của tôi sẽ cần phải có mức độ liên quan của từ khóa cao hơn so với các nhà máy vì nó cụ thể hơn. Làm thế nào tôi sẽ làm điều này? – liamzebedee

Trả lời

1

có các thẻ trên CMS của bạn đã được xác định? Nếu có, bạn có thể lập chỉ mục văn bản của bạn trong bộ nhớ và tìm kiếm bằng cách sử dụng tất cả các thẻ đã biết đối với văn bản của bạn. Chọn các thẻ ghi điểm cao nhất và trình bày cho người dùng.

Indexing và tìm kiếm có thể được thực hiện với http://lucene.apache.org/solr/

Sửa: Lưu ý rằng tôi gợi ý rằng thẻ của bạn/từ khóa được định nghĩa và quản lý từ một bảng điều khiển quản lý (ví dụ như trong wordpress). Nếu không, bạn sẽ kết thúc với hàng ngàn từ khóa được tạo từ các bài viết của bạn mà sẽ không bao giờ giúp người dùng cuối.

Các vấn đề liên quan