2008-10-02 21 views
9

Một số thuật toán tốt để tự động gắn nhãn văn bản với thành phố/khu vực hoặc nguồn gốc là gì? Đó là, nếu một blog là về New York, làm thế nào tôi có thể nói một cách có lập trình. Có gói/giấy tờ yêu cầu làm điều này với bất kỳ mức độ chắc chắn?Phương pháp gắn thẻ địa lý hoặc địa lý nội dung văn bản

Tôi đã xem xét một số phương pháp tiếp cận dựa trên tfidf, giao lộ danh từ thích hợp, nhưng cho đến nay, không có thành công ngoạn mục nào và tôi đánh giá cao ý tưởng!

Câu hỏi chung chung hơn là chỉ định văn bản cho chủ đề, được cung cấp một số danh sách chủ đề.

Phương pháp tiếp cận đơn giản/ngây thơ ưa thích đầy đủ trên phương pháp Bayesian, nhưng tôi mở.

Trả lời

12

Bạn đang tìm kiếm một hệ thống named entity recognition hoặc NER ngắn. Có severalgoodtoolkits có sẵn để giúp bạn. LingPipe nói riêng có rất decent tutorial. CAGEclass dường như được định hướng xung quanh NER về tên địa điểm, nhưng tôi chưa sử dụng nó.

Here's mục nhập blog hay về những khó khăn của NER với tên địa điểm.

Nếu bạn đang sử dụng Java, tôi khuyên bạn nên sử dụng các lớp NER của LingPipe. OpenNLP cũng có một số, nhưng trước đây có một tài liệu tốt hơn.

Nếu bạn đang tìm kiếm một số lý thuyết nền tảng, Chavez et al. (2005) đã xây dựng một cú pháp thú vị và ghi lại nó.

+0

Cảm ơn lời khuyên. Đây là một khó khăn, khó khăn, và câu trả lời của bạn, mà tôi tóm tắt là "Tra cứu NER" là tốt nhất có, có lẽ :) –

+2

Bạn đã tìm thấy giải pháp đơn giản nào cho câu hỏi này .. ?? Vì tôi cũng đang tìm kiếm cùng một loại ứng dụng .. Tôi đã triển khai cấu trúc dữ liệu Trie của riêng mình và tôi cũng có thể dễ dàng tra cứu, nhưng vấn đề là thu thập dữ liệu. Tôi cần lấy tất cả dữ liệu trong từ điển ... Vui lòng chia sẻ suy nghĩ của bạn.. –

2

Latent Semantic Mapping có vẻ như phù hợp. Đó là chỉ là ngây thơ của một thuật toán như bạn có khả năng tìm thấy.

Các vấn đề liên quan