Tôi đang xây dựng một chương trình đơn giản có thể nói số điện thoại bằng giọng nói của con người.Thuật toán để ghép nối âm thanh lời nói với âm thanh liên tục?
Vì vậy, tôi đã ghi lại trước mỗi chữ số (với các ngữ điệu khác nhau) và khi tôi nhận được một số tôi tham gia các tệp âm thanh và phát chúng cùng với một số khoảng lặng được thêm vào giữa các số.
Tuy nhiên, điều này không có vẻ trơn tru hoặc tự nhiên.
Tôi đã cố gắng để đạt được bình thường và tiến độ bình thường trên các tệp nhưng có vẻ như tôi cần tham gia chúng theo cách "thông minh" để quá trình chuyển đổi có vẻ tự nhiên.
Tôi đã tìm một số thuật toán để thực hiện điều đó nhưng không tìm thấy gì.
Có phương pháp nào được biết cho điều đó không?
Cảm ơn.
Sẽ hữu ích nếu bạn có thể thêm trực quan hóa một tín hiệu kết quả bao gồm cả phổ. Bạn có thể sử dụng [praat] (http://www.praat.org) cho điều đó. Nó sẽ làm mọi việc dễ dàng hơn như phát hiện các vấn đề đơn giản hơn, ví dụ: liên quan đến sự chuyển tiếp của tiếng ồn thành im lặng tuyệt đối. –
Nếu bạn đang theo một cách tiếp cận đơn giản, bạn có thể nhìn vào "legato" (từ âm nhạc) và áp dụng cho giọng nói bằng cách ghi "legatos" giữa các số khác nhau và sử dụng để chuyển đổi. – K3N