Tôi muốn giải quyết vấn đề chia tách từ (phân tích các từ từ chuỗi dài không có dấu cách). Để kiểm tra, chúng tôi muốn trích xuất các từ từ somelongword
thành [some, long, word]
.Từ tách phương pháp thống kê tách
Chúng tôi có thể đạt được điều này bằng một số cách tiếp cận năng động với từ điển, nhưng một vấn đề khác mà chúng tôi gặp phải là phân tích sự mơ hồ. I E. orcore
=>or core
hoặc orc ore
(Chúng tôi không tính đến nghĩa của cụm từ hoặc một phần của lời nói). Vì vậy, tôi nghĩ về cách sử dụng một số phương pháp thống kê hoặc ML.
Tôi thấy rằng thuật toán Naive Bayes và Viterbi có tập huấn có thể được sử dụng để giải quyết vấn đề này. Bạn có thể chỉ cho tôi một số thông tin về việc áp dụng các thuật toán này cho vấn đề chia tách từ không?
UPD: Tôi đã thực hiện phương pháp này trên Clojure, sử dụng một số lời khuyên từ Peter Norvig code
Cảm ơn, điểm tốt để bắt đầu. Tôi tìm thấy rất nhiều đoạn mã hữu ích trên trang web của Peter Norvig. – mishadoff
Trình chiếu có một số lý do được đưa ra. –