Bạn cần phát triển một phỏng đoán sẽ có khả năng khớp với tên miền. Cách tôi sẽ làm điều đó là lần đầu tiên tìm thấy một văn bản lớn của văn bản. Ví dụ: bạn có thể tải xuống Wikipedia.
Tiếp theo lấy kho dữ liệu của bạn và kết hợp hai từ liền kề nhau. Ví dụ, nếu câu của bạn là:
quick brown fox jumps over the lazy dog
Bạn sẽ tạo một danh sách:
quickbrown
brownfox
foxjumps
jumpsover
overthe
thelazy
lazydog
Mỗi trong số này sẽ có một số một. Khi bạn phân tích cú pháp của bạn, bạn sẽ theo dõi các cặp tần số của mỗi hai từ. Ngoài ra, đối với mỗi cặp, bạn sẽ cần phải sắp xếp hai từ gốc là gì.
Sắp xếp danh sách này theo tần suất và sau đó tìm cách tìm các kết quả phù hợp trong miền của bạn dựa trên những từ này.
Cuối cùng, hãy kiểm tra tên miền cho hai cụm từ đầu không được đăng ký!
Tôi nghĩ các trang web như DomainTool có danh sách các từ xếp hạng cao nhất. Sau đó, họ cố phân tích những từ này ra trước. Tùy thuộc vào mục đích, bạn có thể muốn xem xét việc sử dụng MTurk để thực hiện công việc. Những người khác nhau sẽ phân tích các từ giống nhau một cách khác nhau và có thể không làm như vậy tương ứng với mức độ phổ biến của các từ.
Ngôn ngữ lập trình nào? – rahul
PHP, đã chỉnh sửa câu hỏi của tôi để bao gồm điều đó, cảm ơn. – Kevin
chạy qua chuỗi ngược lại với pspell kiểm tra - eseehc = pho mát, trừ pho mát từ chuỗi, ekil = như, trừ như từ chuỗi = như; s, sl, sle, slet, sleto, sletoh = khách sạn, trừ khách sạn ... vv bạn cũng có thể chạy nó nhiều lần và bao gồm các phát hiện cuối cùng mà không xóa chúng. chuỗi đảo ngược pspell là một cách rất dễ dàng để tìm các từ "thực" trong bất kỳ ngôn ngữ nào. – Tobias