Tôi đã thấy rất nhiều tài liệu trên web về cách thức hoạt động của python NLTK giúp dễ dàng tính toán các từ lớn.NLTK giúp dễ dàng tính toán các từ lớn. Còn chữ cái thì sao?
Còn chữ cái thì sao?
Điều tôi muốn làm là cắm từ điển và cho nó biết tần suất tương đối của các cặp chữ cái khác nhau.
Cuối cùng tôi muốn thực hiện một số loại quy trình markov để tạo các từ có khả năng tìm kiếm (nhưng giả).
gì bạn có thể làm chỉ đơn giản là lấy chuỗi từ của mình, nhưng có tokenize tokenizer của bạn bằng thư thay vì bằng lời, và sau đó chạy mô hình bigram của bạn trên bộ mã thông báo thư đó. – jdotjdot