2012-02-08 16 views
17

Tôi đang tìm kiếm một API cho ios (lý tưởng miễn phí) cho phép thực hiện một số nhận dạng giọng nói. Tôi đã thấy vài bài viết này: iPhone speech recognition API? free speech recognition engines for iOS? và sau một chút triển vọng tôi đã thu thập được các sdk trông khá thú vị:API nhận dạng giọng nói tốt nhất hiện tại cho ios để khớp với vài từ khóa là gì?

có bất kỳ thứ nào thực sự nổi bật trong đám đông và gần đây không? làm thế nào để chúng thực sự khác biệt với nhau?

+0

Nếu bạn đang tìm kiếm một vài từ như bạn đã chỉ ra trong các nhận xét bên dưới, bạn nên cập nhật câu hỏi của mình với yêu cầu đó –

+0

http://stackoverflow.com/questions/35388720/cant-start-service-speech-recog –

Trả lời

16

Nếu bạn chỉ muốn theo dõi một vài từ khóa, bạn không được tìm API nhận dạng giọng nói hoặc dịch vụ. Tác vụ này được gọi là Từ khóa Spotting và nó sử dụng các thuật toán khác với nhận dạng giọng nói. Nhận dạng giọng nói cố gắng tìm tất cả các từ đã được nói và do đó nó tiêu thụ nhiều tài nguyên hơn từ khóa đốm. Từ khóa phát hiện chỉ cố gắng tìm vài từ khóa hoặc cụm từ khóa đã chọn. Đó là cách đơn giản và ít tốn kém tài nguyên.

Giải pháp duy nhất có thể để lưu trữ funcitonality này là sử dụng gói mã nguồn mở như OpenEars cung cấp bởi Pocketsphinx

http://www.politepix.com/openears

Openears có Rejecto plugin mà thực hiện một cái gì đó tương tự.

Pocketsphinx chính nó gần đây đã triển khai từ khóa hiệu quả nguồn mở đốm quá, nhưng nó đã không nhận được vào cụ mở nào được nêu ra. Nó chỉ có sẵn thông qua pocketsphinx API, bạn cần phải tạo tìm kiếm kws và đặt từ mục tiêu để tìm kiếm. Tôi hy vọng sớm chức năng này cũng sẽ đạt được OpenEars.

+3

Nhưng độ chính xác 'OpenEars' 'khá không phù hợp và gây phiền toái. Bạn có thể đề xuất điều gì đó tốt hơn không. –

+0

@AbhishekBedi: Độ chính xác của OpenEars chỉ tuyệt vời đối với tôi, có thể bạn không sử dụng chính xác. Bạn cần cung cấp thêm thông tin để được trợ giúp về điều đó. –

+0

Tôi theo dõi tute được cung cấp tại [http://www.politepix.com/openears/]. Nhưng tôi không biết làm thế nào để làm việc theo số điểm –

3

Nuance cung cấp cho các nhà phát triển truy cập miễn phí (nhưng không cho khối lượng cao) - Xem http://www.masshightech.com/stories/2011/09/26/daily13-Nuance-tweaks-mobile-dev-program-with-free-access-to-Dragon.html hoặc http://dragonmobile.nuancemobiledeveloper.com/public/index.php?task=home dịch vụ

Nuance thường được cung cấp về mặt thương mại và yêu cầu lập lệ phí trước và phí giao dịch. Tin tức thú vị ở trên là giờ đây họ sử dụng dịch vụ của họ cho các nhà phát triển miễn phí với số lượng thấp. Vì vậy, để phát triển, thử nghiệm và trình diễn, bạn có thể sử dụng các dịch vụ Nuance miễn phí. Tuy nhiên, không giống như các dịch vụ của Google được cung cấp miễn phí trong Android, nếu ứng dụng của bạn có hàng nghìn người dùng, bạn sẽ phải trả tiền cho các dịch vụ của Nuance.

+0

Cảm ơn Michael - sự khác biệt giữa những phần mở hay ispeech cũng miễn phí như thế nào? u có nghĩa là gì bởi khối lượng lớn: lượng dữ liệu cần được xử lý để trích xuất từ ​​khóa? xin lỗi tôi không biết nhiều về nhận dạng giọng nói. Trong trường hợp của tôi tôi sẽ cần phải trích xuất vài từ khóa (tối đa 4/5) liên tục: Tôi không muốn người dùng tương tác với ứng dụng để vào chế độ nhận dạng giọng nói được bật. – tiguero

+1

Nuance là công ty hàng đầu trong lĩnh vực nhận dạng giọng nói thương mại. Họ giống như Cisco trong mạng hoặc EMC trong lưu trữ. Họ là một công ty thành công lớn với công nghệ hàng đầu trong ngành. Người ta tin rằng Nuance cung cấp công nghệ nhận diện đằng sau Siri của Apple. OpenEars (Tôi tin) là một thư viện mã nguồn mở iOS dành cho Sphinx và các trình nhận dạng mã nguồn mở khác. iSpeech đến từ một nhóm nhỏ từ New Jersey, người dường như nổi tiếng với ứng dụng DriveSafe.ly. Xin lỗi, tôi không biết nhiều về họ. –

2

Chúng tôi đã phát triển CeedVocal SDK từ năm 2008, dựa trên dự án mã nguồn mở của Julius & FLite. Dưới đây là một số bối cảnh: chúng tôi muốn làm cho ứng dụng của chúng tôi (Vocalia) cho nhận dạng giọng nói trở lại vào năm 2008 và về cơ bản chọn Julius (do dự với Pocket Sphinx, có vẻ tốt) và tối ưu hóa định dạng tệp của nó khởi động trong 1-2 giây thay vì 20 giây trên iPhone gốc. Sau đó, chúng tôi đào tạo dồi dào các mô hình âm thanh của riêng mình bằng 6 ngôn ngữ. Chúng tôi đã thiết kế API và cuối cùng quyết định cung cấp API cho các nhà phát triển khác dưới dạng SDK.

CeedVocal cơ bản hỗ trợ 2 chế độ hoạt động:

  1. kết hợp của từ (hoặc cụm từ nhỏ)
  2. từ khóa đốm

Trong chế độ đầu tiên hoạt động, nó sẽ cố gắng để gắn kết các đầu vào lời nói đến một từ (hoặc cụm từ) trong danh sách các đầu vào có thể chấp nhận được. Điều này buộc đầu vào vào một từ đã biết trước, ngay cả khi lời nói là cái gì khác. Độ chính xác là tốt. Trong chế độ hoạt động thứ hai, nó sẽ cố gắng chọn một trong các từ khóa của từ khóa đó vào luồng lời nói. Đây là một trường hợp khó, và nó có thể kém chính xác hơn.

Các vấn đề liên quan