2010-02-26 40 views

Trả lời

7

Điểm yếu lớn nhất của trình gắn thẻ Brill là thời gian cần thiết cho giai đoạn đào tạo (hãy xem dấu thời gian cho ACOPOST here hoặc cố gắng triển khai một với NLTK để có ý tưởng). Hãy nhớ rằng bạn nên luôn xem xét một trình gắn thẻ Brill làm trình gắn thẻ cuối cùng được sử dụng trong một chuỗi các hệ thống gắn thẻ (để gắn thẻ đơn giản, tôi thường sử dụng và huấn luyện một trình gắn thẻ Brill trên đầu ra của trình gắn thẻ HMM). Bên cạnh việc tạo giai đoạn đào tạo thậm chí lâu hơn, việc sử dụng trình gắn thẻ Brill thường dẫn đến một bộ quy tắc rất lớn, thường chồng chéo và đôi khi "không chính xác" (tức là, các quy tắc trong ngữ cảnh "đúng" gắn thẻ nhiều thẻ chính xác).

Sức mạnh lớn nhất của trình gắn thẻ Brill là mô hình của nó có ý nghĩa, đặc biệt khi bạn lưu trữ các quy tắc theo định dạng có thể đọc được vì nó thường được thực hiện. Để kiểm tra thủ công mô hình của một trình tagger thống kê là tẻ nhạt, dễ bị lỗi và không hữu ích, trong khi một bộ quy tắc chuyển đổi không chỉ có thể được hiểu và tinh chỉnh theo cách thủ công, nhưng điều này có thể được thực hiện ngay cả với những người không có kinh nghiệm trước đó trong NLP (trong thực tế, tôi đã làm nhiều năm trước đây khi một số sinh viên đại học của một chương trình ngôn ngữ đánh giá các quy tắc được tạo ra trên một kho dữ liệu của Brazil Portugues). Thực tế, bạn thậm chí có thể tự mình viết toàn bộ quy tắc. Trong ngắn hạn, trong khi một trình gắn thẻ Brill là hữu ích như bước cuối cùng trong một hệ thống mạnh mẽ của trình gắn thẻ xếp tầng, nói chung nó không phải là lựa chọn tốt nhất để sử dụng bởi chính nó (nếu bạn muốn sử dụng một trình gắn thẻ duy nhất, tôi sẽ đề nghị để đi với một HMM một). Đề xuất của tôi là đào tạo và sử dụng trình gắn thẻ Brill trên đầu ra được gắn thẻ của trình gắn thẻ khác, tốt nhất là một hệ thống kết hợp như bỏ phiếu (ví dụ: khi bạn thiết lập ba hoặc bốn trình gắn thẻ khác nhau, hãy sử dụng hệ thống bỏ phiếu để chọn thẻ tốt nhất cho mỗi mã thông báo và chỉ sau đó cung cấp các kết quả này cho một trình gắn thẻ Brill mà hy vọng có thể sửa những lỗi phổ biến nhất của hệ thống trước đó).

+0

NLTK có hỗ trợ cho hệ thống bỏ phiếu không? Tôi hiện đang thử nghiệm với các trình gắn thẻ NLTK POS nhưng sử dụng sắp xếp xếp tầng ngược. Tôi chưa thêm trình gắn thẻ Markov. – winwaed

1

Một số gợi ý để cải thiện trình gắn thẻ của Brill được trình bày trong các bài báo "Độc lập và cam kết: Giả định cho đào tạo nhanh và thực hiện các quy tắc POS dựa trên quy tắc" và "Học tập dựa trên chuyển đổi trong ngõ nhanh". Ngoài ra, bộ công cụ gắn thẻ POS và hình thái dựa trên quy tắc RDRPOSTagger cũng cung cấp các cải tiến cho trình gắn thẻ của Brill, nơi các quy tắc dựa trên chuyển đổi được lưu trữ dưới dạng cây quyết định nhị phân. Vì vậy, RDRPOSTagger có được tốc độ đào tạo và gắn thẻ rất nhanh với độ chính xác cao hơn Brill. Xem kết quả here.

Các vấn đề liên quan