2009-12-09 31 views
5

Tôi là sinh viên đại học và đã đến lúc mua sách giáo khoa. Quý này có hơn 20 cuốn sách tôi cần cho các lớp học. Thông thường điều này sẽ không phải là một vấn đề lớn như vậy, vì tôi sẽ chỉ sao chép và dán các ISBN vào Amazon. Các ISBN, tuy nhiên, được chuyển đổi thành một hình ảnh trên trang sách của trường tôi. Tất cả những gì tôi muốn làm là lấy các ISBN vào một chuỗi vì vậy tôi không phải gõ từng cái một bằng tay. Tôi đã sử dụng GOCR để chuyển đổi các hình ảnh thành văn bản, nhưng tôi muốn sử dụng nó với một kịch bản Ruby để tôi có thể tự động hóa quá trình và làm tương tự cho các bạn cùng lớp của tôi.Sử dụng Ruby và Ubuntu với nhận dạng ký tự quang học

Tôi có thể điều hướng đến trang web. Làm thế nào tôi có thể lưu hình ảnh vào một tập tin trên máy tính của tôi (chạy UBUNTU), chuyển đổi hình ảnh với GOCR, và cuối cùng lưu nó vào một tập tin để tôi có thể truy cập chúng một lần nữa với kịch bản Ruby của tôi?

Trả lời

2

Âm thanh như một dự án hay và không quá khó nếu các hình ảnh ISBN được lưu trữ trong các tệp riêng lẻ.

này đều có thể được chạy ở chế độ nền:

  • tải trang web (net/http)
  • lưu metadata + file ảnh cho mỗi cuốn sách (kẹp giấy)
  • chạy GOCR trên tất cả các hình ảnh

Tất cả những gì bạn cần là danh sách các url hoặc trình thu thập thông tin (cơ giới hóa) và sau đó bạn có thể cần phải dành vài phút viết một trình phân tích cú pháp (xem bài đăng của joe) cho các trang html của trường đại học.

3

GOCR có vẻ là lựa chọn tốt lúc đầu, nhưng từ những gì tôi có thể nói từ "nghiên cứu" của riêng mình, chất lượng không đủ để sử dụng hàng ngày. Có lẽ điều này có thể dẫn đến một vấn đề, tùy thuộc vào đầu vào hình ảnh. Nếu nó không hoạt động cho bạn, hãy thử tính năng "mới" của Google Documents, cho phép bạn tải lên hình ảnh cho OCR. Sau đó bạn có thể lấy kết quả bằng cách sử dụng một số api google (có tấn ngoài đó, tôi đang sử dụng gdata-ruby-util mà đòi hỏi một số hack, tuy nhiên.

Đối với phần truy xuất, tôi cũng sẽ gắn bó với hpricot, siêu mạnh và linh hoạt.

Các vấn đề liên quan