2014-10-16 22 views
6

Là khách hàng Google Analytics/BigQuery cao cấp, câu hỏi của chúng tôi là, Dữ liệu nào chính xác hơn?BiqQuery vs Google Analytics, dữ liệu nào chính xác hơn?

Tôi có xu hướng muốn nghiêng về BigQuery là chính xác hơn bởi vì chúng tôi thực sự có thể xem dữ liệu thô, nhưng chúng tôi không có cái nhìn sâu sắc vào các phương pháp Google Analyitcs được sử dụng để tính toán số của nó.

Tôi cũng nghĩ rằng rất nhiều việc phải làm với SAMPLING.

Khi bạn tính toán một cái gì đó đơn giản như Tổng lượt truy cập cho một trang duy nhất, những con số Google Analytics xếp hàng để BigQuery trong 0,00001%:

sum(case when regexp_match(hits.page.pagepath,r'(?i:/contact.aspx)') and hits.type = "page" then 1 else 0 end) as total_pageviews

Khi bạn tính toán một cái gì đó phức tạp hơn như truy cập trang cho một một trang duy nhất, số Google Analytics là 5% lớn hơn BigQuery. Lưu ý rằng nó là lấy mẫu bằng cách tối đa 1 triệu:

count(distinct (case when regexp_match(hits.page.pagepath,r'(?i:/contact.aspx)') and hits.type = "page" then concat(fullvisitorid, string(visitid)) end), 1000000) as unique_pageviews

Tôi rất thích biết những gì người khác nghĩ hoặc những gì các nhà phát triển của Google có thể tự mình giải thích.

+0

Tôi khuyên bạn nên đọc http://stackoverflow.com/questions/16609219/bigquery-countdistinct-value-vs-countvalue, có vẻ như đếm (có thể lấy mẫu riêng biệt trong BigQuery – Eduardo

Trả lời

3

Nếu bạn là khách hàng cao cấp, tôi cho rằng điều đó sẽ trở thành bạn có tầm nhìn lớn với nhiều dữ liệu. API Google Analytics sẽ lấy mẫu dữ liệu của bạn nếu có nhiều, đây là điều bạn có thể thử và ngăn chặn bằng cách đặt mức lấy mẫu lên. Ngay cả với mức lấy mẫu được đặt ở độ chính xác cao, bạn vẫn sẽ nhận được dữ liệu lấy mẫu từ API.

Kiểm tra Json quay lại từ API, nó sẽ cho bạn biết liệu dữ liệu của bạn có đang được lấy mẫu hay không.

Big Query sẽ không lấy mẫu dữ liệu của bạn, có một cách để khách hàng cao cấp sử dụng API với dữ liệu lấy mẫu ra nhưng tôi nghĩ bạn phải liên hệ với Google về việc thiết lập dữ liệu đó.

Điểm lớn hơn trong lợi ích của Truy vấn lớn là bạn không bị giới hạn ở 7 thứ nguyên và 10 chỉ số giống như bạn đang sử dụng API Google Analytics.

Lưu ý: Tôi không phải là Nhà phát triển Google nhưng tôi là Chuyên gia nhà phát triển Google cho Google Analytics.

+0

@DalmTo, Cảm ơn bạn đã trả lời! Bạn là thực sự chính xác rằng chúng tôi có một trang web rất lớn với rất nhiều dữ liệu. Điều thú vị là bạn đề cập đến API.Bạn có bất kỳ kiến ​​thức nào về API có chức năng khác với giao diện người dùng của trình duyệt hay không. để xác thực dữ liệu và xây dựng truy vấn ban đầu và API cho tự động hóa và lưu trữ. Tôi sẽ cố gắng liên hệ với Google về việc thiết lập tài khoản để không lấy mẫu.Đây chỉ là với API hoặc giao diện người dùng có thể được đặt để không lấy mẫu không? – hoggkm

+0

I Tôi không chắc chắn nếu giao diện người dùng có thể xử lý được thiết lập để không lấy mẫu.Tôi không có quyền truy cập vào một tài khoản chuyên nghiệp vì vậy đã không thể làm bất kỳ thử nghiệm (chơi với nó). rallyally tôi tự hỏi nếu giao diện người dùng có thể xử lý dữ liệu không lấy mẫu từ một tài khoản lớn. Liên hệ với Google xem họ nói gì. – DaImTo

1

Tôi là người hâm mộ lớn của BigQuery. Tôi cũng đã sử dụng Google Analytics khá nhiều. Vì vậy, câu hỏi là về nơi dữ liệu chính xác hơn.

Vâng, câu trả lời cho một câu hỏi như vậy luôn là: "dữ liệu chính xác hơn, càng gần nơi nó bắt nguồn". BigQuery là kho lưu trữ cơ bản của tất cả dữ liệu của Google. Đây là nơi dữ liệu được thu thập, lập chỉ mục, và sau đó được truy cập thông qua giao diện SQL.

Google Analytics là một công cụ được phát triển với rất nhiều tài khoản miễn phí. Để hỗ trợ tài khoản miễn phí, GA cần có quy mô tốt. Để mở rộng quy mô, các công ty tối ưu hóa dung lượng lưu trữ bằng dữ liệu tổng hợp trước.

Vì vậy, bạn thực sự so sánh hai điều: dữ liệu được tổng hợp trước/tổng hợp trước (GA) và dữ liệu được tích lũy thô (BigQuery). Bạn sẽ tin tưởng điều gì?

Bây giờ, có vẻ như đó cũng là câu hỏi thứ 2: "cách lấy tổng hợp chính xác từ BigQuery?" BigQuery đã đầy đủ trên SQL không tương thích ANSI khó nhớ đối với các truy vấn đặc biệt. Bạn nên kết nối công cụ BI trên đầu trang của BigQuery để bạn có thể khám phá dữ liệu một cách nhất quán (tức là ngưỡng/làm tròn tương tự).

Các vấn đề liên quan