2011-02-07 22 views
14

Chúng tôi đang chuyển sang s3 để bắt đầu phân phối một số nội dung được tạo tĩnh cho ứng dụng web của chúng tôi. Chúng tôi đã xem xét một cơ chế để xây dựng hệ thống số liệu về việc sử dụng trang web của chúng tôi và chúng tôi đã lên kế hoạch phân tích nhật ký truy cập cho S3 bằng cách chuyển các thông tin bổ sung được ghi vào các yêu cầu GET nội dung. Chúng tôi đã xảy ra trên khắp entry in the developers guide sau:Các tệp nhật ký truy cập amazon s3 đáng tin cậy như thế nào?

nhất Effort server Log Delivery

Máy chủ tính năng truy cập khai thác gỗ được thiết kế dành cho những nỗ lực tốt nhất. Bạn có thể hy vọng rằng hầu hết các yêu cầu đối với nhóm được cấu hình đúng cách để ghi nhật ký sẽ dẫn đến nhật ký được phân phối và hầu hết các bản ghi nhật ký sẽ được gửi trong vòng vài giờ sau khi được ghi.

Tuy nhiên, tính năng ghi nhật ký máy chủ là được cung cấp trên cơ sở tốt nhất. đầy đủ và kịp thời của máy chủ ghi nhật ký không được đảm bảo. Nhật ký nhật ký cho một yêu cầu cụ thể có thể được phân phối lâu sau khi yêu cầu thực sự được xử lý hoặc có thể không phân phối được tất cả . Mục đích nhật ký máy chủ là cung cấp cho chủ sở hữu thùng một ý tưởng về bản chất của lưu lượng truy cập so với nhóm của họ. Nó không phải là có nghĩa là một kế toán đầy đủ của tất cả các yêu cầu.

Chúng tôi đang tự hỏi những gì người khác đã trải nghiệm liên quan đến việc cung cấp nhật ký truy cập? Cách khác của chúng tôi là xây dựng một máy chủ HTTP và cố gắng tự đo số liệu với một cuộc gọi khác, nhưng chúng tôi nghĩ rằng việc phân tích các tệp nhật ký có thể chứng minh là ít hoạt động hơn. Chúng tôi muốn biết liệu mọi người có thấy tình huống giao hàng không diễn ra để cố gắng đánh giá chính xác chúng tôi có thể hy vọng là vì một số chỉ số chúng tôi thu thập được sử dụng trong một số quy trình kinh doanh của chúng tôi.

+2

Câu hỏi công bằng, tôi nghĩ "nỗ lực tốt nhất" xuất phát từ phương pháp "bất kỳ máy chủ nào có thể gặp sự cố". Họ có thể sao chép các bản ghi khi tắt/tắt máy chủ một cách duyên dáng, nhưng chúng không lưu trữ các bản ghi trên dung lượng lưu trữ cao cấp (được sao lưu, bảo đảm) - vì vậy chúng không thể đảm bảo rằng bản sao chép trong mọi trường hợp. Nếu bạn muốn ghi nhật ký đáng tin cậy hơn, bạn luôn có thể thiết lập cơ chế của riêng bạn để di chuyển nhật ký tới [S3] (http://aws.amazon.com/s3/), [EBS] (http: //aws.amazon. com/ebs /), [SimpleDB] (http://aws.amazon.com/simpledb/). – Rudu

+0

Ngoài ra hãy xem https://www.s3stat.com/. – jarmod

Trả lời

4

Tôi đã rất ngạc nhiên khi các tệp nhật ký của tôi trên S3 đã nhận được chưa đầy một tháng. Nó không cần thiết cho ứng dụng của tôi để phân tích các bản ghi trên Amazon nhưng tôi thích cách tiếp cận của bạn. Từ những gì tôi đã thấy, bạn có thể mong đợi các tệp nhật ký chính xác và đầy đủ. Dựa trên cảnh báo CYA của họ, các bản ghi không nên được sử dụng cho bất cứ điều gì quan trọng.

1

Tôi biết điều này không phải là một câu trả lời cho câu hỏi của bạn, nhưng ...

Trừ khi các file tĩnh của bạn đòi hỏi một số loại ủy quyền (URL ký hợp đồng với tải, vv), tôi thấy không có trường hợp sử dụng tốt để sử dụng S3 để phục vụ nội dung tĩnh.

Đây không phải là CDN và không có nghĩa là được sử dụng làm CDN. ;-)

Ít nhất, tôi khuyên bạn nên sử dụng cloudfront nhưng IMHO quá đắt (và không hoạt động rất tốt so với những người khác). Tôi muốn giới thiệu một người như là edgecast hoặc cachefly vì họ cung cấp nhiều tiền hơn cho bạn. \

Họ cũng cung cấp cho bạn (nhiều hơn hoặc ít hơn) tính năng tĩnh rộng lớn và nhiều tính năng đẹp như dọn dẹp dễ dàng và vô hiệu bộ nhớ cache của bạn.

+4

Một trường hợp sử dụng tốt sẽ phục vụ các tệp lớn như MP3 hoặc video dài sẽ kết nối máy chủ cục bộ của bạn với tài nguyên hữu hạn, để máy chủ của bạn có thể tập trung vào việc mở rộng logic ứng dụng. – davidjbullock

2

Chúng tôi đã sử dụng S3 để ghi lại lượng dữ liệu tương đối lớn (theo thứ tự 100M hàng).Chúng tôi cần dựa vào các bản ghi truy cập S3 cho một mục đích cụ thể và chúng tôi đang quan sát một số vấn đề quan trọng đối với người dùng tiềm năng của nhật ký truy cập cần lưu ý:

  • Chúng tôi thấy (vài) mục nhập nhật ký hiển thị nhiều ngày sau khi họ có nghĩa vụ phải được tạo ra
  • Chúng tôi nhận thấy các mục trùng lặp đăng một giao dịch S3 duy nhất (hiện đang điều tra)
  • Ngoài ra còn có vẻ là trường hợp bản ghi đó được thực sự không được tạo ra (hiện đang điều tra)

Khuyến nghị của tôi là tránh dựa vào Nhật ký truy cập S3 nếu tính chính xác và đầy đủ của dữ liệu là rất quan trọng.

Các vấn đề liên quan