2010-01-26 28 views
17

Tôi tò mò muốn biết trình xem PDF của Google Tài liệu hoạt động như thế nào? Nó không phải là một flash như scribd.com; nó trông giống như HTML thuần túy. Bất kỳ ý tưởng làm thế nào để họ đã làm nó?Trình xem PDF của Google Tài liệu hoạt động như thế nào?

Sample link to view the PDF

+3

với rất nhiều .... và rất nhiều .... và rất nhiều ... tiền – skaffman

+0

Đọc phần 'chỉnh sửa' của câu trả lời ngay ở cuối bài đăng của tôi. –

+0

Như @BenEverard cho biết dưới đây PDF được hiển thị dưới dạng hình ảnh trong đó mỗi trang là hình ảnh riêng biệt và không có văn bản trên hình ảnh nhưng chúng làm nổi bật các khối văn bản trên trang hình ảnh với các hình chữ nhật bán trong suốt. Cách hoạt động của bản sao là một câu hỏi khác. – infinity

Trả lời

18

Google chỉ đơn giản là phục vụ tối đa một hình ảnh (click chuột phải -> save as), với một lớp phủ để làm nổi bật văn bản.

Bạn nên xem this SO question nơi những người khác đi vào chi tiết hơn.

Bạn cũng nên xem qua nguồn của liên kết PDF của mình, có vẻ như Google đang chuyển liên kết PDF qua để được chuyển đổi thành hình ảnh.

Ví dụ:

<script type="text/javascript"> 
     var gviewElement = document.getElementById('gview'); 
     var config = { 

      'api': false, 
      'chrome': true, 
      'csi': true, 
      'ddUrl': "http://www.idfcmf.com/downloads/monthly_fund/2009/IDFC-Premier-Equityfund-jan10.pdf", 
      'element': gviewElement, 
      'embedded': false, 
      'initialQuery': "", 
      'oivUrl': "http://docs.google.com/viewer?url\x3dhttp%3A%2F%2Fwww.idfcmf.com%2Fdownloads%2Fmonthly_fund%2F2009%2FIDFC-Premier-Equityfund-jan10.pdf", 
      'sdm': 200, 
      'userAuthenticated': true 
     }; 

     var gviewApp = _createGView(config); 
     gviewApp.setProgress(50); 


      window.jstiming.load.name = 'view'; 

      window.jstiming.load.tick('_dt'); 

     </script> 

Sửa

Ngoài ra nếu bạn đã xem xem PDF trong Firefox với Firebug, bạn sẽ thấy rằng khi bạn 'nổi bật' text nó thực sự chỉ cho phép một tải của divs, tôi đoán Google quét tài liệu bằng OCR, phát hiện vị trí của văn bản và cung cấp ma trận tọa độ để căn cứ vị trí div, khi bạn nhấp và kéo nó introgates vị trí con trỏ chuột để xác định div nào trưng bày.

+0

Không .. nó không chuyển đổi toàn bộ điều thành hình ảnh. bởi vì, nó cho phép bạn chọn và sao chép văn bản bên trong nó. Tôi không nghĩ rằng chúng ta có thể làm điều đó trong hình ảnh .. –

+0

Không ... nó đang chuyển đổi nó thành một hình ảnh ... bạn có thể nói điều này bởi vì tôi đã tải nó dưới dạng PNG! Cách nó được quản lý để cung cấp lớp phủ cho nội dung đánh dấu/sao chép là thứ mà tôi không thể giải thích, nhưng nó đang chuyển đổi nó thành hình ảnh. Bạn đã xem bài SO khác mà tôi đã liên kết chưa? –

+0

Nếu bạn muốn bằng chứng cho thấy nó chuyển đổi nó thành hình ảnh, hãy kiểm tra liên kết này -> http://docs.google.com/viewer?url=http://www.idfcmf.com/downloads/monthly_fund/2009/IDFC -Premier-Equityfund-jan10.pdf & docid = 5322c117e5783d5cdd53578480268e86 & a = bi & pagenumber = 1 & w = 800 –

1

toàn bộ nội dung là hình ảnh. lớp phủ đánh dấu văn bản - điều đó dễ hiểu. nhưng khi bạn nhấn ctrl + c và nó sao chép vào clipboard, phần đó đã khiến tôi hoàn toàn bối rối. bởi vì nó không thể ghi vào clipboard bằng javascript trong firefox, nhưng ctrl + c này trên ảnh hoạt động tốt trong firefox. http://www.google.com/support/forum/p/Google+Docs/thread?tid=67dcf21ef8579b4c&hl=en&fid=67dcf21ef8579b4c00047e4a2a9fcb12

+1

Tôi cho rằng họ không sử dụng javascript để đặt văn bản trong hộp clip, nhưng có thể chọn văn bản trong trình duyệt. Và khi bạn nhấn Ctrl + C, bạn thực sự đang sử dụng tính năng Sao chép thông thường của trình duyệt. – BastiBen

1

Tôi đồng ý với một số câu trả lời khác - PDF được hiển thị dưới dạng PNG và rất có thể các vùng văn bản được xếp lớp, có thể sử dụng vị trí tuyệt đối/tương đối. Bạn có thể trích xuất thông tin PDF từ PDF (tất nhiên ...). Định dạng PDF được mở - bất kỳ ai cũng có thể làm điều đó (được cấp, nó có thể không dễ dàng). Tuy nhiên có một số công cụ nguồn mở ngoài đó (xPDF ...) cho phép xuất nội dung PDF, như XML. Có thể xuất khẩu bao gồm thông tin như tọa độ về vị trí trên văn bản trang và hình ảnh sẽ hiển thị.

Các vấn đề liên quan