2012-07-02 45 views
12

Chúng tôi đang tìm kiếm một Công cụ dịch máy mã nguồn mở có thể được tích hợp vào quy trình làm việc bản địa hóa của chúng tôi. Chúng tôi đang xem xét các tùy chọn dưới đây:Công cụ dịch mã nguồn mở?

  1. Moses (C++)
  2. Joshua (Java)
  3. Phrasal (Java)

Trong số này, Moses có sự hỗ trợ của cộng đồng rộng nhất và có đã được thử nghiệm bởi nhiều công ty địa phương và các nhà nghiên cứu. Chúng tôi đang thực sự dựa vào một công cụ dựa trên Java vì các ứng dụng của chúng ta đều là trong Java. Có bất kỳ người nào trong số các bạn đã sử dụng Joshua hoặc Phrasal như là một phần của quy trình làm việc của mình. Bạn có thể chia sẻ kinh nghiệm của bạn với họ không? Hoặc, là Moses cách quá xa trước những điều này về các tính năng nó cung cấp và dễ dàng tích hợp.

Và, chúng tôi yêu cầu các cơ hỗ trợ:

  1. đào tạo miền cụ thể (ví dụ: nó nên duy trì bảng cụm từ riêng biệt cho từng lĩnh vực mà các dữ liệu đầu vào thuộc).
  2. Đào tạo gia tăng (tức là tránh phải đào tạo lại mô hình từ đầu mỗi khi chúng tôi muốn sử dụng một số dữ liệu đào tạo mới).
  3. Song song quy trình dịch thuật.
+0

[Marcus] (http://stackoverflow.com/users/840647/marcus) hỏi: Chỉ cần tò mò muốn biết, bạn đã bắt đầu sử dụng hoặc Joshua hoặc Phrasal? Nếu có, bạn có thể chia sẻ kinh nghiệm của mình không? –

+0

Chào mừng bạn đến với Stack Overflow. Câu hỏi thú vị. Tôi đã thực hiện một chút Google tìm kiếm để đưa ra các URL mà tôi đưa vào câu hỏi cho bạn - bạn sẽ có một câu hỏi hay hơn nữa nếu bạn tự thêm chúng (và có thể tìm ra một URL tốt hơn so với PDF cho Phrasal). –

+1

Có ai biết tại sao một số tên của phần mềm dịch máy bằng cách nào đó liên quan đến egpyt/israel? ví dụ. GIZA, MOSES, Joshua. – alvas

Trả lời

5

Câu hỏi này được hỏi rõ hơn về danh sách gửi thư của Moses ([email protected]), tôi nghĩ vậy. Có rất nhiều người làm việc với các loại hệ thống khác nhau, vì vậy bạn sẽ nhận được câu trả lời khách quan. Ngoài ra, đây là đầu vào của tôi:

  • Đối với Java: không quan trọng bằng ngôn ngữ mà hệ thống MT được viết. Không có hành vi phạm tội, nhưng bạn có thể giả định một cách an toàn rằng ngay cả khi mã được viết bằng ngôn ngữ bạn đã quen thuộc, sẽ rất khó hiểu nếu không có kiến ​​thức sâu hơn về MT. Vì vậy, những gì bạn đang tìm kiếm là giao diện. Xml-rpc của Moses hoạt động tốt.
  • Đối với hệ thống MT: tìm kiếm kết quả tốt nhất, bỏ qua ngôn ngữ lập trình được viết. Kết quả ở đây: matrix.statmt.org. Những người sử dụng hệ thống MT của bạn quan tâm đến đầu ra không có trong tùy chọn mã hóa của bạn.
  • Đối với toàn bộ liên doanh: khi bạn bắt đầu cung cấp đầu ra MT, hãy đảm bảo bạn có thể điều chỉnh nhanh chóng. MT đang nhanh chóng chuyển sang một quy trình đường ống trong đó một hệ thống MT là lõi (và không phải là thành phần duy nhất). Vì vậy, tập trung vào bảo trì. Trong trường hợp lý tưởng, bạn sẽ có thể kết nối bất kỳ hệ thống MT nào vào khung công tác của bạn.

Và đây là một số đầu vào yêu cầu tính năng của bạn:

  • đào tạo Domain-cụ thể: bạn không cần tính năng đó. Bạn nhận được kết quả MT tốt nhất bằng cách sử dụng đào tạo dữ liệu cụ thể của khách hàng.
  • Đào tạo gia tăng: xem Stream Based Statistical Machine Translation
  • Song song quy trình dịch: bạn sẽ phải tự thực hiện việc này. Lưu ý rằng hầu hết phần mềm MT hoàn toàn là học thuật và sẽ không bao giờ đạt mốc 1.0. Nó giúp tất nhiên nếu một máy chủ đa luồng có sẵn (Moses), nhưng thậm chí sau đó, bạn sẽ cần rất nhiều mã khai thác.

Hy vọng điều này sẽ hữu ích. Vui lòng PM cho tôi nếu bạn có thêm bất kỳ câu hỏi nào.

5

Rất nhiều thứ đã được tiến lên, vì vậy tôi đã nghĩ cập nhật về chủ đề này và để lại câu trả lời trước đó để ghi lại tiến độ.

Đào tạo theo tên miền cụ thể: kỹ thuật thích ứng miền có thể hữu ích nếu dữ liệu của bạn được lấy từ nhiều nguồn khác nhau và bạn cần tối ưu hóa theo tên miền phụ. Từ kinh nghiệm của chúng tôi, không có giải pháp duy nhất nào hoạt động tốt nhất, vì vậy bạn cần thử nhiều phương pháp có thể và so sánh kết quả. Có một thư trên danh sách gửi thư của Moses liệt kê các phương pháp có thể: http://thread.gmane.org/gmane.comp.nlp.moses.user/9742/focus=9799various. Trang tiếp theo cũng cung cấp tổng quan về nghiên cứu hiện tại: http://www.statmt.org/survey/Topic/DomainAdaptation

Đào tạo gia tăng: có một cuộc nói chuyện thú vị về IWSLT 2013: http://www.iwslt2013.org/downloads/Assessing_Quick_Update_Methods_of_Statistical_Translation_Models.pdf nó chứng minh rằng phương pháp gia tăng hiện tại (1) đưa bạn vào hệ thống ngoại tuyến, vì vậy bạn không thực sự " cập nhật trực tiếp "của các mô hình của bạn (2) được cải thiện tốt hơn bằng cách đào tạo lại toàn bộ. Dường như vấn đề vẫn chưa được giải quyết.

Song song quy trình dịch: máy chủ moses bị chậm lại trên nhị phân moses-cmd. Vì vậy, nếu bạn muốn sử dụng các tính năng mới nhất, tốt hơn là bắt đầu từ moses-cmd. Ngoài ra, cộng đồng đã không giữ lời hứa không bao giờ phát hành phiên bản 1.0 :-). Trong thực tế, bạn có thể tìm thấy bản phát hành mới nhất (2.1) tại đây: http://www.statmt.org/moses/?n=Moses.Releases

Các vấn đề liên quan