2011-01-20 42 views
19

Tôi đang khám phá cách tôi có thể sử dụng thông tin phân loại của Wikipedia để trích xuất Thẻ/Từ khóa từ nội dung của tôi.Làm cách nào để sử dụng DBPedia để trích xuất Thẻ/Từ khóa khỏi nội dung?

Tôi đã tìm thấy các bài viết về DBPedia. DBpedia là một nỗ lực của cộng đồng để trích xuất thông tin có cấu trúc từ Wikipedia và để làm cho thông tin này có sẵn trên Web.

Có ai đã sử dụng dịch vụ web của họ không? Bạn có biết cách họ làm việc và mức độ tin cậy của nó không?

Trả lời

20

DBpedia là một tài nguyên chất lượng tuyệt vời. Để chuyển nội dung của bạn vào một tập hợp các khái niệm dbpedia có liên quan, tuy nhiên, bạn sẽ cần phải xác định chính xác chúng trong văn bản của bạn, trong đó bao gồm ít nhất hai bước:

  1. Xác định khái niệm dbpedia trong nội dung của bạn: Điều này bao gồm công nhận tên khái niệm (và tên thay thế) trong văn bản, và cũng định hướng trong tất cả các ý nghĩa có thể có của mỗi cụm từ. Thuật ngữ "Mặt trời" có thể đề cập đến hàng chục khái niệm có thể theo số disambiguation page bao gồm dấu sao, báo, tên người, v.v. Điều này liên quan đến nhận dạng, phân loại và liên kết thực thể.

  2. Xác định khái niệm nào thú vị: Ví dụ: bạn có muốn khái niệm "Bài viết xác định" hiển thị khi văn bản bao gồm cụm từ "the" (mà The chuyển hướng đến) không?

Bạn có thể muốn xem xét một thư viện phân tích văn bản từ trước hoặc dịch vụ hỗ trợ thực thể liên kết với DBpedia. Một công cụ tuyệt vời để lập chỉ mục chủ đề là Maui, được phát triển bởi Alyona Medelyan trong quá trình tiến sĩ của cô. Một giải pháp nguồn mở tuyệt vời khác là Wikipedia Miner của David Milne tại cùng một trường đại học.

Hai dịch vụ thương mại cung cấp liên kết đến các khái niệm DBpedia là ZemantaExtractiv (cho phép một số mức sử dụng miễn phí). DBpedia spotlight tùy chọn. Những người khác có thể cung cấp những khả năng này được liệt kê tại: https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

Tiết lộ: Tôi [được sử dụng để] làm việc tại Extractiv (không còn tồn tại), được hỗ trợ bởi NLP của Language Computer Corporation.

4

Bạn có thể sử dụng Apache Stanbol cho quy trình này. Entityhub thành phần của Apache Stanbol cung cấp các chỉ mục DBPedia tùy chỉnh dựa trên nhu cầu của bạn. Sau đó, bạn có thể sử dụng thành phần Enhancer để trích xuất Địa điểm, Người, Vị trí thực thể từ văn bản của bạn.

Theo dõi chuỗi thư có thể hữu ích cho bạn.
http://markmail.org/message/52266yl5ohijxiof

Bạn có thể truy cập vào chạy demo của Apache Stanbol từ liên kết sau:
http://dev.iks-project.eu/

Bạn cũng có thể đặt câu hỏi thêm của bạn để stanbol-dev AT incubator.apache.org.

Các vấn đề liên quan