13

Giảm kích thước có nghĩa là gì?Giảm kích thước là gì?

Tôi đã tìm kiếm ý nghĩa của nó, tôi chỉ thấy rằng điều đó có nghĩa là việc chuyển đổi dữ liệu thô thành một dạng hữu ích hơn. Vì vậy, lợi ích của việc có dữ liệu dưới dạng hữu ích là gì, tôi có nghĩa là làm thế nào tôi có thể sử dụng nó trong một cuộc sống thực tế (ứng dụng)?

+0

bạn đang nói về 'giảm kích thước'? –

+0

Hoặc có lẽ 'khai thác dữ liệu'? – Tarydon

+0

có giảm kích thước – Yasmeen

Trả lời

2

http://en.wikipedia.org/wiki/Dimension_reduction

có lẽ bạn đã nghe nói về PCA (phép phân tích thành phần chính), mà là một thuật toán giảm Dimension.

Các loại khác bao gồm LDA, phương pháp dựa trên hệ số ma trận, v.v.

Dưới đây là một ví dụ đơn giản. Bạn có nhiều tệp văn bản và mỗi tệp bao gồm một số từ. Có tập tin có thể được phân loại thành hai loại. Bạn muốn hình dung một tệp dưới dạng một điểm trong không gian 2D/3D để bạn có thể thấy phân phối rõ ràng. Vì vậy, bạn cần phải làm giảm kích thước để chuyển một tập tin có chứa rất nhiều từ vào chỉ có 2 hoặc 3 kích thước.

+1

Thêm SVD. –

+2

Giới thiệu rất hay về PCA với nền "thuần túy" của Giá trị/Vectơ Eigen: http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf –

35

Giảm độ lệch là về việc chuyển đổi dữ liệu có chiều cao rất cao thành dữ liệu có chiều hướng thấp hơn nhiều sao cho mỗi thứ nguyên thấp hơn truyền đạt nhiều thông tin hơn.

Điều này thường được thực hiện trong khi giải quyết các vấn đề về học máy để có được các tính năng tốt hơn cho nhiệm vụ phân loại hoặc hồi quy.

Là một ví dụ giả tạo - Giả sử bạn có danh sách 100 phim và 1000 người và cho mỗi người, bạn biết họ thích hay không thích mỗi phim trong số 100 phim. Vì vậy, đối với mỗi trường hợp (trong trường hợp này có nghĩa là mỗi người) bạn có một vector nhị phân có chiều dài 100 [vị trí i là 0 nếu người đó không thích phim thứ i, 1 nếu không].
Bạn có thể thực hiện nhiệm vụ học máy trên các véc tơ này trực tiếp .. nhưng thay vào đó bạn có thể quyết định 5 thể loại phim và sử dụng dữ liệu bạn đã có, tìm hiểu xem người đó thích hay không thích toàn bộ thể loại và theo cách này giảm dữ liệu của bạn từ một vectơ có kích thước 100 thành một vectơ có kích thước 5 [vị trí i là 1 nếu người đó thích thể loại i]

Vectơ có chiều dài 5 có thể được coi là đại diện tốt của vectơ có chiều dài 100 vì hầu hết mọi người có thể thích xem phim chỉ trong thể loại ưa thích của họ.

Tuy nhiên, nó sẽ không phải là đại diện chính xác vì có thể có trường hợp một người ghét tất cả các phim thuộc thể loại trừ một.

Vấn đề là, vector giảm truyền tải hầu hết thông tin trong một lớn hơn trong khi tiêu thụ không gian ít hơn rất nhiều và nhanh hơn để tính toán.

+8

Có thể đáng lưu ý rằng điều này là 'bị truy nã 'một phần vì các thể loại chúng tôi đã quen thuộc, có một chút khác biệt với các mẫu mà phân tích ma trận sẽ tìm thấy. Vì vậy, thay vì 'hài kịch', 'phim kinh dị', 'hoạt hình', chúng tôi nhận được các loại kết quả được thấy trong http://www.timelydevelopment.com/demos/NetflixPrize.aspx --- các thứ nguyên không đi kèm với một quan chức nhãn, nhưng giống như một thước đo từ "Những gì một cậu bé 10 tuổi sẽ xem" để "Những gì một người phụ nữ tự do sẽ xem", hoặc (kích thước đầu tiên của họ) "Offbeat/Dark-Comedy" để "Mass-Market/'Beniffer ' Phim". –

8

Câu hỏi của bạn có chút mơ hồ, nhưng có một kỹ thuật thống kê thú vị có thể là những gì bạn đang nghĩ đến được gọi là Principal Component Analysis, điều tương tự (và tình cờ vẽ kết quả từ đó là công việc lập trình thế giới thực đầu tiên của tôi)

Đó là một kỹ thuật gọn gàng nhưng thông minh được áp dụng rộng rãi đáng kể. Tôi đã áp dụng nó vào những điểm tương đồng giữa các chuỗi amino acid amino, nhưng tôi đã thấy nó được sử dụng để phân tích mọi thứ từ các mối quan hệ giữa vi khuẩn với rượu whisky mạch nha.

Hãy xem xét đồ thị của một số thuộc tính của tập hợp những thứ có một biến độc lập - để phân tích mối quan hệ trên một biến rõ ràng trên hai chiều và bạn có thể thấy một điểm phân tán.nếu bạn có ba biến, bạn có thể sử dụng biểu đồ 3D, nhưng sau đó biến bắt đầu hết kích thước.

Trong PCA người ta có thể có hàng chục hoặc thậm chí một trăm hoặc nhiều yếu tố độc lập, tất cả đều cần phải được vẽ trên trục vuông góc. Sử dụng PCA thực hiện điều này, sau đó phân tích đồ thị đa chiều kết quả để tìm tập hợp của hai hoặc ba trục trong biểu đồ có chứa lượng thông tin lớn nhất. Ví dụ: Tọa độ chính đầu tiên sẽ là trục tổng hợp (nghĩa là ở một góc nào đó qua không gian n chiều) có thông tin nhất khi các điểm được vẽ dọc theo nó. Trục thứ hai vuông góc với điều này (hãy nhớ đây là không gian n-chiều, vì vậy có rất nhiều perpendiculars) trong đó có số lượng lớn thứ hai của thông tin, vv

Vẽ đồ thị kết quả trong 2D hoặc 3D thường sẽ cung cấp cho bạn một trực quan hóa dữ liệu chứa một lượng đáng kể thông tin trong tập dữ liệu gốc. Thông thường, kỹ thuật được coi là hợp lệ để tìm kiếm một biểu diễn chứa khoảng 70% dữ liệu gốc - đủ để hình dung các mối quan hệ với một số sự tự tin mà nếu không sẽ không rõ ràng trong các thống kê thô. Lưu ý rằng kỹ thuật này đòi hỏi tất cả các yếu tố đều có cùng trọng số, nhưng cho rằng đó là một phương pháp cực kỳ phổ biến, đáng được biết rộng rãi và có sẵn trong hầu hết các gói thống kê (tôi đã thực hiện công việc của mình trên ICL 2700 vào năm 1980) mạnh mẽ như một chiếc iPhone)

0

Đó là một kỹ thuật của data mining. Lợi ích chính của nó là nó cho phép bạn tạo ra một biểu diễn trực quan của dữ liệu nhiều chiều. Bộ não con người vô song trong việc phát hiện và phân tích các mẫu trong dữ liệu trực quan, nhưng có thể xử lý tối đa ba chiều (bốn nếu bạn sử dụng thời gian, tức là màn hình động) - vì vậy bất kỳ dữ liệu nào có nhiều hơn 3 chiều cần phải nén xuống 3 (hoặc 2, vì việc vẽ sơ đồ dữ liệu trong 3D thường có thể khó khăn về mặt kỹ thuật).

BTW, một hình thức giảm kích thước rất đơn giản là việc sử dụng màu để biểu thị thứ nguyên bổ sung, ví dụ: heat maps.

0

Giả sử bạn đang xây dựng cơ sở dữ liệu thông tin về một bộ sưu tập lớn những con người trưởng thành. Nó cũng sẽ khá chi tiết. Vì vậy, chúng tôi có thể nói rằng cơ sở dữ liệu sẽ có kích thước lớn.

AAMOF mỗi bản ghi cơ sở dữ liệu thực sự sẽ bao gồm thước đo chỉ số IQ và kích thước giày của người đó. Bây giờ chúng ta hãy giả vờ rằng hai đặc điểm này có mối tương quan khá cao. So với kích thước giày IQ có thể dễ dàng đo lường và chúng tôi muốn đưa vào cơ sở dữ liệu với các dữ liệu hữu ích càng nhanh càng tốt. Một điều chúng tôi có thể làm là rèn trước và ghi lại kích thước giày cho các hồ sơ cơ sở dữ liệu mới, trì hoãn nhiệm vụ thu thập dữ liệu IQ cho sau này. Chúng tôi vẫn sẽ có thể ước tính chỉ số IQ bằng cách sử dụng kích thước giày vì hai biện pháp có liên quan.

Chúng tôi sẽ sử dụng một hình thức giảm kích thước thực tế rất đơn giản bằng cách để IQ ra khỏi hồ sơ ban đầu. Phân tích thành phần chính, các dạng phân tích nhân tố khác nhau và các phương pháp khác là các phần mở rộng của ý tưởng đơn giản này.

2

Thứ nguyên của phép đo thứ gì đó, là số lượng cần thiết để mô tả nó. Vì vậy, ví dụ số lượng cần thiết để mô tả vị trí của một điểm trong không gian sẽ là 3 (x, y và z).

Bây giờ, hãy xem xét vị trí của một chuyến tàu dọc theo một con đường dài nhưng quanh co qua những ngọn núi. Thoạt nhìn, điều này có vẻ như là một vấn đề 3 chiều, đòi hỏi một phép đo kinh độ, vĩ độ và chiều cao để xác định. Nhưng 3 kích thước này có thể được giảm xuống một nếu bạn chỉ mất khoảng cách đi dọc theo đường đi từ đầu thay thế.

Nếu bạn được giao nhiệm vụ sử dụng mạng nơ-ron hoặc một số kỹ thuật thống kê để dự đoán có thể nhận được một lượng nhiên liệu nhất định, thì sẽ dễ dàng hơn khi làm việc với dữ liệu 1 chiều so với 3 phiên bản chiều.

Các vấn đề liên quan