2011-11-20 43 views
7

Vì vậy, giống như nhiều người khác, tôi quyết định tạo công cụ nhận dạng giọng nói của riêng mình. Khi nó bật ra, nó không phải dễ dàng chút nào, thay vào đó, nó khá khó khăn để hoàn thành cho tiếng Anh đặc biệt, bởi vì có, tôi muốn nói, sự khác biệt kịch tính giữa cách một từ được viết, và cách nó được phát âm. Đến từ Georgia, tôi quyết định viết nhận dạng giọng nói cho ngôn ngữ Gruzia. Trong tiếng Georgia, bạn phát âm các từ CHÍNH XÁC theo cách bạn viết chúng. Nó giống như một phiên mã. Liệu thực tế này có làm giảm đáng kể nhiệm vụ của tôi không? Hoặc thậm chí còn khó khăn hơn ... khó khăn: D?Viết công cụ nhận dạng giọng nói

+1

Btw, một người bạn của tôi gần đây đã tạo ASR của Georgia. Nếu bạn quan tâm hãy để tôi biết. –

+0

Nika, bạn đã tạo phần mềm chưa? hãy chia sẻ những gì bạn đã làm, chúng tôi cũng quan tâm nếu phần mềm đó tồn tại. –

+1

Tôi nghĩ cách dễ nhất để làm điều đó là sử dụng AI sử dụng các Perceprtrons Multilevel hoặc một cái gì đó tương tự (tôi có nghĩa là mạng nơ-ron) và đào tạo nó ... tôi nghĩ với giải pháp này bạn có thể dễ dàng giải quyết vấn đề đã đề cập đến Yahia trong câu trả lời của mình , GL;) – Simon

Trả lời

9

Nhận dạng giọng nói là một miền phức tạp với nhiều thuật toán, công cụ và phương pháp cụ thể. Để tạo động cơ của riêng của bạn, bạn có thể bắt đầu với CMUSphinx toolkit nhận dạng giọng nói mã nguồn mở mà sẽ cho phép bạn:

  • Thu thập và yêu cầu xử lý dữ liệu để hỗ trợ ngôn ngữ Gruzia
  • Tạo các mô hình cho Gruzia
  • Thực hiện một bài phát biểu công cụ nhận dạng bằng tiếng Georgia.
  • Sử dụng động cơ để tạo ra một ứng dụng nhận dạng giọng nói đang chạy trên máy tính để bàn, trên máy chủ hoặc trên IPhone (thông qua OpenEars)

CMUSphinx đã hỗ trợ tiếng Anh, Đức, Tây Ban Nha, Pháp, Hà Lan, Nga, tiếng Quan Thoại, tiếng Iceland, Ý và nhiều ngôn ngữ khác. Nó rất đơn giản để thêm một cái mới.Đối với những người mới, thường mất một hoặc hai tháng tập trung để thực hiện quy trình được yêu cầu.

Để bắt đầu truy cập trang chủ:

http://cmusphinx.sourceforge.net

và đọc hướng dẫn

http://cmusphinx.sourceforge.net/wiki/tutorial

Nếu bạn có bất kỳ câu hỏi, xin vui lòng yêu cầu họ trên các diễn đàn hay ở đây!

Và, đó là một quan niệm sai lầm rất phổ biến mà bạn chỉ đánh vần các âm thanh khi bạn nói tiếng Gruzia. Điều đó không đúng cho hầu hết các ngôn ngữ trên thế giới. Để kiểm tra giả thuyết, hãy thử ghi lại một số âm thanh trong trình chỉnh sửa âm thanh và kiểm tra xem âm thanh nào thực sự được phát âm hay không. Bạn sẽ bất ngờ. Hướng dẫn ở trên bao gồm chi tiết câu hỏi này.

+0

để bạn có nghĩa là tôi có thể thêm ngôn ngữ hoàn toàn chưa được khám phá, chẳng hạn như tiếng Georgia và "làm cho nó hoạt động" trong vài tháng?!?! – nicks

+0

Có, tại sao không. Trên thực tế CMUSphinx đã có nhiều tiến bộ để hỗ trợ các ngôn ngữ có nguồn lực hạn chế. –

5

Mọi người ở Georgia có hoàn toàn giống nhau không? Tôi nghĩ rằng không ... rất nhiều vấn đề lớn trong nhận dạng giọng nói không liên quan trực tiếp đến ngôn ngữ riêng của mình: người

  • khác nhau (phụ nữ, nam giới, trẻ em, người già, vv) có giọng nói khác nhau
  • đôi khi giống nhau người âm thanh khác nhau ví dụ như khi người đó có bị cảm lạnh
  • nền khác nhau tiếng ồn
  • bài phát biểu hàng ngày đôi khi chứa các từ trong các ngôn ngữ khác (như bạn có từ Đức mẫu giáo ở Mỹ/tiếng Anh)
  • một số người không phải từ bản thân đất nước đã học được sự yếu đuối tuổi (họ thường âm thanh khác nhau)
  • một số người nói nhanh hơn, người khác nói chậm
  • chất lượng của microphone
    , vv

Giải quyết những điều này luôn là khá khó khăn ... trên đầu trang của bạn mà có ngôn ngữ/phát âm để chăm sóc ... Tôi không biết Georgian nhưng những gì bạn mô tả có thể làm cho nhiệm vụ dễ dàng hơn một chút nhưng nó vẫn sẽ là một nhiệm vụ khó khăn.

EDIT - theo nhận xét:

Sử dụng thư viện tốt có thể giảm khung thời gian và thậm chí giúp về chất lượng ... nhưng không phải mọi thư viện là tốt cho nhận dạng giọng nói mặc dù có lẽ là rực rỡ trên một số audio- khác các vấn đề liên quan ...

để tham khảo xem bài viết Wikipedia http://en.wikipedia.org/wiki/Speech_recognition - nó có một cái nhìn tổng quan tốt bao gồm một số liên kết và tài liệu tham khảo cuốn sách đó là một điểm khởi đầu tốt ...

đối với làm thế nào để thiết kế một API như thấy ví dụ: http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/Recognition.html

+0

về cách âm thanh của những người khác nhau: thực sự, thậm chí nghĩ rằng họ không âm thanh hoàn toàn giống nhau, có một sự giống nhau tuyệt vời bởi vì nói georgian giống như đọc phiên mã; và ở đó, bạn không có nhiều lựa chọn, tôi nghĩ vậy. – nicks

+2

@NikaGamkrelidze Tôi nghi ngờ nếu bạn nghe cùng một từ của 2 người khác nhau, bạn có thể phân biệt giữa những người (như mẹ của bạn so với cha của bạn so với một số người bạn, vv)? – Yahia

+0

tất nhiên: DDD tôi hiểu. nó vẫn còn khó: SS nhưng, làm thế nào để bạn nghĩ, có thể cho một noob hoàn chỉnh trong lĩnh vực này hay không. nói một năm? – nicks

Các vấn đề liên quan