2009-11-25 30 views
10

Làm thế nào tôi có thể yêu cầu NLTK xử lý văn bản bằng một ngôn ngữ cụ thể?NLTK/pyNLTK có thể hoạt động "cho mỗi ngôn ngữ" (nghĩa là không phải tiếng Anh) hay không?

Thỉnh thoảng, tôi viết thường trình NLP chuyên biệt để thực hiện gắn thẻ POS, mã thông báo và vv trên miền văn bản không phải tiếng Anh (nhưng vẫn là hindo-Châu Âu).

Câu hỏi này dường như để giải quyết chỉ corpora khác nhau, không phải là sự thay đổi trong mã/cài đặt: POS tagging in German

Ngoài ra, là có bất kỳ Hebrew/Tây Ban Nha/Ba Lan NLP module chuyên dùng cho python?

Trả lời

8

Tôi không chắc chắn những gì bạn đang đề cập đến là những thay đổi về mã/cài đặt. NLTK chủ yếu dựa vào học máy và "cài đặt" thường được trích xuất từ ​​dữ liệu đào tạo.

Khi nói đến gắn thẻ POS, kết quả và gắn thẻ sẽ phụ thuộc vào trình gắn thẻ bạn sử dụng/đào tạo. Nếu bạn đào tạo của riêng bạn, tất nhiên bạn sẽ cần một số dữ liệu đào tạo tiếng Tây Ban Nha/Ba Lan. Lý do có thể khó tìm thấy là thiếu tài liệu tiêu chuẩn vàng công khai. Có những công cụ hiện có để làm điều đó, nhưng cái này không phải cho python (http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/).

Trình thông báo nltk.tokenize.punkt.PunktSentenceTokenizer sẽ mã hóa các câu theo ranh giới câu đa ngôn ngữ mà các chi tiết có thể tìm thấy trong bài báo này (http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485).

+0

cảm ơn. punkt câu tokenizer có vẻ đúng hướng. –

+0

Làm thế nào để bạn có được treetagger để làm việc? http://stackoverflow.com/questions/15503388/treetagger-installation-successful-but-cannot-open-par-file – alvas

Các vấn đề liên quan