2009-11-03 24 views
5

Tôi đang tìm các công cụ để tạo văn bản ngẫu nhiên nhưng thực tế. Tôi đã tự mình triển khai một trình tạo văn bản Markov Chain và trong khi kết quả có triển vọng, những nỗ lực cải thiện chúng không mang lại thành công lớn nào.Các thư viện hoặc công cụ để tạo văn bản ngẫu nhiên nhưng thực tế

Tôi sẽ hài lòng với các công cụ tiêu thụ một kho văn bản hoặc hoạt động dựa trên bối cảnh ngữ cảnh nhạy cảm hoặc ngữ cảnh. Tôi muốn công cụ này phù hợp để đưa vào một dự án khác. Hầu hết công việc gần đây của tôi đã có trong Java nên một công cụ trong ngôn ngữ đó được ưa thích hơn, nhưng tôi sẽ đồng ý với C#, C, C++ hoặc thậm chí là JavaScript.

Điều này tương tự như này question, nhưng lớn hơn về phạm vi.

+0

Trong tài liệu tham khảo để nhận xét của bạn dưới đây - thông số của bạn cho tương đồng với văn bản gốc là gì? Độ dài từ? Xác suất ký tự? Độ dài câu? Trong ký tự hoặc từ? Có lẽ nếu bạn nhận được cụ thể hơn trong yêu cầu của bạn, một cái gì đó có thể được tìm thấy. –

Trả lời

6

Mở rộng trình tạo chuỗi Markov của riêng bạn có lẽ là đặt cược tốt nhất của bạn, nếu bạn muốn văn bản "ngẫu nhiên". Tạo ra một cái gì đó có ngữ cảnh là một vấn đề nghiên cứu mở.

Hãy thử (nếu bạn chưa có):

  • Tokenising chấm câu riêng biệt, hoặc bao gồm các dấu chấm câu trong chuỗi của bạn nếu bạn chưa có. Điều này bao gồm các dấu đoạn.
  • Nếu bạn đang sử dụng chuỗi Markov 2 hoặc 3 lịch sử, hãy thử đặt lại để sử dụng chuỗi lịch sử 1 lần khi bạn gặp phải toàn bộ điểm dừng hoặc dòng mới.

Ngoài ra, bạn có thể sử dụng WordNet trong hai đèo với corpus của bạn:

  1. Phân tích câu để xác định trình tự chung của từ loại, tức là danh từ, động từ, tính từ và trạng từ. WordNet bao gồm những điều này. Tất cả mọi thứ khác (đại từ, liên kết, bất cứ điều gì) đều bị loại trừ, nhưng về cơ bản bạn có thể vượt qua những điều đó. Điều này sẽ biến "Con cáo nâu nhanh nhảy qua con chó lười" thành "[tính từ] [tính từ] [danh từ] [động từ] trong [tính từ] [danh từ]"
  2. Sao chép các câu bằng cách chọn ngẫu nhiên một câu mẫu và thay thế [tính từ], [danh từ] và [động từ] với các danh từ và động từ tính thực tế.

Có một số vấn đề với cách tiếp cận này: ví dụ: bạn cần ngữ cảnh từ các từ xung quanh để biết chọn từ đồng nghĩa nào. Nhìn lên "nhanh" trong wordnet mang lại những thứ nhanh chóng, nhưng cũng là một phần của móng tay của bạn.


Tôi biết điều này không giải quyết yêu cầu của bạn đối với thư viện hoặc công cụ, nhưng có thể cung cấp cho bạn một số ý tưởng.

+0

Tôi phát hiện ra wordnet gần đây trong khi seraching cho một giải pháp tương tự như thế này –

0

Giống như this Máy phát điện Lorem ipsum? Có nhiều liên kết đến một số API.

+0

Rất giống nhau, nhưng tôi đang tìm kiếm một văn bản có thể tiêu thụ một văn bản và tạo văn bản ngẫu nhiên nhưng tương tự. Tôi xin lỗi, tôi nên rõ ràng hơn trong câu hỏi. –

Các vấn đề liên quan