5

Khi tôi khá quen thuộc với các câu lệnh SQL một lần nữa, khi lấy dữ liệu từ Google Analytics, tôi thấy rằng chúng không sử dụng SQL, mà đúng hơn là sử dụng Thứ nguyên và Chỉ số và các kết hợp của chúng.Tại sao Phân tích trang web như Google Analytics sử dụng Thứ nguyên và chỉ số thay vì câu lệnh SQL?

Tại sao lại là lý do? Tôi nghĩ rằng nó không có một giao diện SQL (hoặc một bản ghi máy chủ web tải xuống đồng bằng)? Nếu vậy, làm thế nào để các câu lệnh SQL dịch sang Thứ nguyên, Số liệu (và Phân đoạn và Bộ lọc)? Có vẻ như Metrics có xu hướng là "aggregates" như số () hoặc trung bình () và Dimension có xu hướng là các giá trị được ghi lại (chẳng hạn như Browser == IE hoặc Country == Australia), tương tự như giá trị group by. Bộ lọc giống như điều kiện và phân đoạn là gì?

Dường như nếu chúng tôi chỉ định Tham số, thì nó cũng tự động thực hiện group by và hiển thị trường đó. Nó không tính () hoặc tổng () thường. Nếu chúng tôi muốn average(*) thay thế thì sao? Và nếu chúng ta muốn nó hiển thị nhưng không muốn nó làm một group by?

dụ trang web để thử nghiệm là http://code.google.com/apis/analytics/docs/gdata/gdataExplorer.html

Trả lời

2

tôi sẽ tưởng tượng câu trả lời nằm trong thực tế là trước khi API đã có sẵn cách duy nhất bạn có thể phân tích dữ liệu là thông qua giao diện Google Analytics. Và ở đó họ sử dụng rộng rãi "thứ nguyên" và "số liệu". Bởi vì những người không kỹ thuật thường xuyên lui tới nó, họ sẽ không bao giờ giới thiệu các cấu trúc SQL phức tạp; chỉ cần thả xuống dễ dàng hơn.

Tôi không chắc chắn cách dữ liệu Google Analytics được lưu trữ là SQL thân thiện (tức là cột và hàng từ bảng). Tôi đã đọc họ đã phát triển cách riêng để lưu trữ dữ liệu này.

+0

có, có thể họ lấy mẫu dữ liệu thay vì lưu trữ tất cả chi tiết trong một số trường hợp –

7

sử dụng thuật ngữ "Thứ nguyên" và "Chỉ số" cho thấy Google đang sử dụng cơ sở dữ liệu OLAP chứ không phải cơ sở dữ liệu quan hệ .... SQL được sử dụng cho cơ sở dữ liệu quan hệ: OLAP sử dụng MDX hoặc ngôn ngữ truy vấn độc quyền (nếu Oracle) .

Từ http://en.wikipedia.org/wiki/OLAP

Cốt lõi của bất kỳ hệ thống OLAP là một khối OLAP (còn gọi là 'khối đa chiều' hoặc một hypercube).

Nó bao gồm sự kiện số gọi là biện phápphân loại theo kích thước.

3

Có thể phát triển nội bộ bằng các công nghệ của riêng họ như Bảng lớn và Bản đồ-Giảm. Lập bản đồ và tổng hợp là những điểm mạnh của thuật toán loại Map-Reduce, do đó, có nghĩa là dữ liệu sẽ xuất hiện được tổng hợp qua các thứ nguyên khác nhau như vậy.

Nếu bạn muốn biết thêm về chúng tôi muốn đề nghị những bài viết Wikipedia:

3

Tôi đoán là nếu bạn đang hỏi một câu hỏi như thế này, bạn có thể đã xem xét quá khứ một số báo cáo ngoài hộp, chẳng hạn như lượt xem trang đơn giản. Nếu đó là tất cả những gì bạn đang làm thì bạn sẽ mất đi nhiều điểm và sức mạnh của Web Analytics. Phân tích trang web nói chung (không chỉ GA) là về việc xem xét các xu hướng trong dữ liệu, theo thời gian. Và bản thân dữ liệu được mua lại bằng cách tuân theo các quy tắc và hành vi nhất định, cả được xác định trước và do người dùng xác định.

Phần lớn dữ liệu cho báo cáo không thể dễ dàng được lấy từ truy vấn cơ sở dữ liệu trực tiếp, vì dữ liệu được dựa trên tóm tắt như "xyz theo thời gian" và dữ liệu tổng hợp. Ví dụ: khái niệm "phạm vi" cho thứ nguyên và chỉ số, trong đó biến và/hoặc giá trị sẽ báo cáo dữ liệu về lượt xem/sự kiện trên trang đơn hoặc trong quá trình truy cập (phiên) hoặc thậm chí trên lượng thời gian do người dùng xác định (như "thực hiện điều này một tháng trước" hoặc "thực hiện điều này cho đến khi một số sự kiện xảy ra", chẳng hạn như một biến cụ thể hoặc loại biến được xuất hiện). Bởi vì hầu hết các báo cáo liên quan đến các khái niệm cấp cao hơn về truy xuất dữ liệu, cơ sở dữ liệu được trừu tượng hóa và một "khung" được đặt ra (giao diện báo cáo) để giúp bạn xây dựng các báo cáo hiển thị dữ liệu được theo dõi. Ngay cả khi bạn là một chuyên gia về cơ sở dữ liệu, nó sẽ mất quá nhiều thời gian và công sức để thử và trích xuất dữ liệu theo cách thủ công cho hầu như mọi thứ trừ dữ liệu cơ bản nhất như lượt xem trang. Và dữ liệu cơ bản như vậy không phải là rất khả thi.

Xem xét theo dõi chiến dịch làm ví dụ. Tất cả bắt đầu với một giá trị var = duy nhất. Khi người dùng nhấp vào liên kết và chuyển đến trang có giá trị var = trong url, mã theo dõi sẽ lấy giá trị đó và bắt đầu phân bổ không chỉ dữ liệu về trang (url, thời gian, loại trình duyệt, danh sách tiếp tục và trên) mà còn tất cả các dữ liệu khác được thu thập từ mã hóa tùy chỉnh. Sau đó, có các cài đặt khác mà bạn có thể áp dụng cho nó, như gắn giá mỗi nhấp chuột hoặc một số thước đo trọng số, phân bổ thành công cho mục tiêu hoặc sự kiện, v.v ... dựa trên các quy tắc khác (lần đầu tiên so với phân bổ nhấp chuột cuối cùng, v.v. ..). Danh sách các công cụ sắp được phát và những gì được coi là cứ tiếp diễn và cứ tiếp diễn. Hãy tiếp tục và tự mình thực hiện các chuỗi truy vấn cơ sở dữ liệu đó. Bây giờ rửa, rửa sạch và lặp lại vì đó chỉ là một mã chiến dịch. Tôi đã có khách hàng với hàng nghìn mã chiến dịch, với nhiều mã được thêm vào mỗi ngày. Oh, và cũng trên hết, tinh chỉnh hoặc thực hiện các truy vấn hoàn toàn mới dựa trên cách bạn muốn báo cáo thực tế hiển thị dữ liệu. Tham khảo chéo và chia nhỏ bởi xyz. Nhìn vào kênh và kịch bản dựa trên dữ liệu đó. Và đó chỉ là cho các chiến dịch, một điều trong nhiều điều. Vì vậy, để tạo một câu chuyện dài ngắn, hãy nghĩ về giao diện báo cáo như một khuôn khổ cho cơ sở dữ liệu, với các truy vấn được xác định trước bạn có thể tinh chỉnh, để làm cho nỗ lực báo cáo của mọi người trở nên dễ dàng hơn, đặc biệt vì hầu hết mọi người không phải là chuyên gia cơ sở dữ liệu.

+3

yêu trang web của bạn. – Stann

1

Chúng tôi đã tự hỏi mình câu hỏi tương tự. Có vẻ như nhiều API phân tích trang web có nhiều suy nghĩ hơn và thường là ánh xạ trực tiếp đến các tính năng giao diện người dùng của sản phẩm tương ứng. Với Infunl (Tuyên bố từ chối trách nhiệm: Tôi là người đồng sáng lập), chúng tôi đang xây dựng API phân tích web với ngôn ngữ truy vấn linh hoạt tương tự như cú pháp SQL nhưng được tối ưu hóa cao cho khung công tác tổng hợp và giảm bớt bản đồ. Hơn nữa, nó cung cấp nhiều chức năng tích hợp được thiết kế đặc biệt cho phân tích trang web, như các bước kênh chuyển đổi, phân tích theo nhóm, hỗ trợ kiểm tra tách và phân đoạn và phân đoạn nội dung linh hoạt.

Các vấn đề liên quan