Siêu dữ liệu là gì?

Tác giả sysadmin, T.M.Hai 10, 2022, 03:47:38 CHIỀU

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 1 Khách đang xem chủ đề.

Siêu dữ liệu là gì?


Ngay cả khi bạn chưa bao giờ nghe đến thuật ngữ siêu dữ liệu, thì bạn chắc chắn đã quen thuộc với nó — bạn có thể sử dụng nó hàng ngày mà không hề nhận ra. Siêu dữ liệu là một trong những thứ thiết yếu có thể ẩn trong tầm nhìn rõ ràng.


1. Siêu dữ liệu là gì?

Siêu dữ liệu nghe giống như một thuật ngữ đáng sợ, nhưng thực tế không phải vậy — siêu dữ liệu chỉ là dữ liệu mô tả các dữ liệu khác.

Theo nhiều cách, siêu dữ liệu rất giống với giấy phép lái xe hoặc một loại ID khác mà bạn quen thuộc. ID chính thức thường sẽ có ngày sinh, chiều cao, màu mắt, ảnh và các thông tin khác về bạn. Siêu dữ liệu hoàn thành vai trò tương tự đối với các tệp kỹ thuật số được tìm thấy trên máy tính. Siêu dữ liệu thường sẽ mô tả thời điểm tệp hoặc thư mục được tạo, thời điểm tệp hoặc thư mục được sửa đổi lần cuối và các thuộc tính quan trọng khác về tệp hoặc thư mục đó.

Các loại tệp khác nhau thường sẽ có siêu dữ liệu khác nhau. Dưới đây là một số ví dụ cụ thể về siêu dữ liệu mà bạn có thể thấy được đính kèm với các tệp thông thường.

2. Ví dụ về siêu dữ liệu

Thông tin được lưu trữ dưới dạng siêu dữ liệu thay đổi đáng kể giữa các loại tệp. Như bạn có thể tưởng tượng, ảnh hoặc hình ảnh cần siêu dữ liệu khác với một tài liệu văn bản.

2.1. Ảnh và Video

Giả sử bạn đang thực hiện một chuyến đi bộ đường dài bằng cách sử dụng GPS của điện thoại để hướng dẫn bạn. Trong chuyến đi của mình, bạn rút điện thoại ra và chụp một bức ảnh về một con vật, một loại nấm kỳ lạ hoặc một khung cảnh tuyệt đẹp. Ngay sau khi bạn chụp ảnh, sẽ có thông tin kèm theo: cài đặt máy ảnh, bao gồm độ dài phơi sáng, ISO, F-stop, nhà sản xuất máy ảnh, thời gian chụp ảnh và có thể cả tọa độ GPS của ảnh máy ảnh khi hình ảnh được chụp.

Khi dữ liệu đó đã được lưu, nó có thể được sử dụng để sắp xếp và phân loại hình ảnh. Ứng dụng thư viện ảnh trên điện thoại của bạn là một ví dụ điển hình — bạn có thể sắp xếp hình ảnh của mình theo ngày và thậm chí cả vị trí nếu bạn đã bật gắn thẻ địa lý. Các ứng dụng thư viện ảnh hiện đại thậm chí có thể đính kèm dữ liệu bổ sung mô tả nội dung của hình ảnh, chẳng hạn như "Thức ăn", "Thú cưng" hoặc tên của một người cụ thể. Đó là thứ cho phép bạn tìm kiếm hình ảnh trên điện thoại dựa trên nội dung của chúng. Dưới đây là ví dụ về ảnh được chụp khi bật GPS của điện thoại:


Bạn có thể xem trực tiếp siêu dữ liệu của hình ảnh trên điện thoại hoặc PC của mình.


Siêu dữ liệu GPS được đính kèm với hình ảnh chỉ chính xác như GPS trong điện thoại di động của bạn, nhưng trong hầu hết các trường hợp, siêu dữ liệu đó chỉ chính xác trong phạm vi vài mét.


Các tệp video sẽ có nhiều thông tin giống nhau và sau đó là một số thông tin bổ sung liên quan đến tốc độ khung hình và âm thanh được liên kết với video.

2.2. Âm thanh

Siêu dữ liệu âm thanh sẽ bao gồm những thứ thông thường, chẳng hạn như thời điểm tệp được tạo nhưng nó cũng lưu thông tin cụ thể cho tệp âm thanh. Siêu dữ liệu cho tệp âm thanh thường chứa thông tin về nghệ sĩ, album, số và tên bản nhạc, cũng như thông tin về bản thân âm thanh, chẳng hạn như tốc độ bit, độ sâu bit và tốc độ mẫu.

2.3. Tin nhắn

Các tin nhắn bạn gửi cho người khác cũng có siêu dữ liệu được liên kết. Các ví dụ điển hình về siêu dữ liệu được đính kèm với thư là thời gian gửi, người nhận và thông tin về mọi tệp đính kèm mà thư có thể có. Một số ứng dụng nhắn tin cũng có thể nhúng siêu dữ liệu bổ sung vào tin nhắn của chúng, chẳng hạn như thời gian nhận và biểu tượng cảm xúc.

2.4. Phần mở rộng tệp

Một loại siêu dữ liệu đặc biệt quan trọng là phần mở rộng tệp. Phần mở rộng tệp là những thứ như PNG, TXT, DOCX, JPG, MP3, v.v. Phần mở rộng tệp cho phép Windows biết loại dữ liệu mong đợi và cách mở tệp. Không có nó, Windows sẽ không thể tự động biết cách mở nó và bạn sẽ phải yêu cầu nó mở tệp theo cách thủ công bằng một chương trình cụ thể.

Lưu ý: Không phải tất cả các hệ điều hành đều sử dụng phần mở rộng tệp để lưu trữ siêu dữ liệu định dạng tệp.

2.5. Tập tin máy tính khác

Hầu hết các tệp có siêu dữ liệu khá cụ thể đối với loại tệp, tuy nhiên, có một số siêu dữ liệu về cơ bản là phổ biến. Nếu bạn kiểm tra các thuộc tính của hầu hết mọi tệp trên PC của mình — bất kể loại tệp — bạn sẽ thấy thông tin về vị trí tệp được lưu trữ, khi tệp được tạo, khi được truy cập, khi được sửa đổi và khi nào. tạo. Đây là một ví dụ từ Windows 10:


3. Siêu dữ liệu được các cá nhân sử dụng như thế nào?

Nếu bạn sử dụng bất kỳ loại máy tính hiện đại nào — kể cả điện thoại di động — thì bạn thường xuyên sử dụng siêu dữ liệu. Siêu dữ liệu là thứ cho phép bạn sắp xếp các tệp của mình theo loại. Đó là thứ cho phép bạn sắp xếp các tệp của mình theo "Ngày tạo", "Ngày sửa đổi" hoặc "Ngày truy cập". Hầu hết các trình phát phương tiện hiện đại đều cho phép bạn liệt kê nhạc của mình theo tốc độ bit hoặc sắp xếp thư viện phim của bạn thành các danh mục dựa trên độ phân giải. Các trang web thường chứa "thẻ meta", một loại siêu dữ liệu cụ thể được tìm thấy trong tiêu đề của trang web được sử dụng để mô tả nội dung của trang web cho công cụ tìm kiếm.

Bất cứ khi nào bạn phân loại tệp, thư mục hoặc trang web, bạn đều dựa vào siêu dữ liệu.

4. Siêu dữ liệu khác được sử dụng như thế nào?

Các cá nhân sử dụng siêu dữ liệu theo những cách cụ thể, nhưng còn bức tranh toàn cảnh thì sao? Mọi việc bạn làm trên máy tính đều tạo ra dữ liệu và siêu dữ liệu. Hãy xem xét rằng có hàng chục tỷ máy tính đang được sử dụng ngày nay, bao gồm khoảng sáu đến bảy tỷ điện thoại thông minh — chúng ta cùng nhau tạo ra một lượng siêu dữ liệu không thể đo đếm được mỗi ngày.

4.1. Nhắm mục tiêu quảng cáo và nội dung đến những người cụ thể

Thông tin đó không chỉ bị loại bỏ. Một lượng lớn dữ liệu được đưa vào các thuật toán tinh vi và mô hình học máy để phân tích. Điều gì xảy ra sau đó thực sự phụ thuộc vào người đã thu thập siêu dữ liệu và những gì họ muốn tìm hiểu — nó có thể được sử dụng để phân tích mọi thứ, từ hành vi của một cá nhân đến các mô hình và xu hướng lớn nhất trong xã hội.

Các trường hợp sử dụng trực tiếp nhất là quảng cáo được nhắm mục tiêu và đề xuất nội dung được cá nhân hóa. Bạn đã bao giờ tìm thấy nguồn cấp dữ liệu mạng xã hội của mình chứa đầy quảng cáo liên quan đến nội dung nào đó mà bạn đã tra cứu trên điện thoại chưa? Bạn đã từng nhấp vào một thứ gì đó bất thường trên YouTube chỉ để thấy rằng các đề xuất của bạn thay đổi để bao gồm nhiều kết quả hơn giống như thứ bạn vừa nhấp vào? Đó là thuật toán đang hoạt động, phân tích dữ liệu và siêu dữ liệu được liên kết với bạn để hiển thị kết quả mà nó "nghĩ" sẽ có nhiều khả năng thu hút sự chú ý của bạn và khiến bạn nhấp vào.

Việc sử dụng siêu dữ liệu để tăng mức độ tương tác của người dùng có một số hậu quả không mong muốn. Đáng chú ý nhất, nó có xu hướng ưu tiên nội dung cực đoan về mặt cảm xúc: nó khiến bạn cảm thấy thực sự tốt hoặc thực sự tồi tệ — cả hai trường hợp thường kích thích hơn nội dung thực tế. Đó là một phần quan trọng khiến việc lướt mạng xã hội một cách vô thức trở nên vô cùng gây nghiện.

Đôi khi nó cũng dẫn đến những quảng cáo mà mọi người thấy khá xâm phạm — không có gì giống như kiểm tra WebMD khi bạn cảm thấy khó chịu chỉ để thấy dòng thời gian trên Facebook của bạn chứa đầy quảng cáo về các loại thuốc điều trị một danh sách các bệnh giải thích các triệu chứng của bạn.

Lưu ý: Facebook đã hứa hạn chế một số quảng cáo liên quan đến y tế, trong số những thứ khác và trước đó đã thêm các hạn chế bổ sung đối với quảng cáo dược phẩm. Chúng ta sẽ thấy những thay đổi này diễn ra như thế nào trong tương lai.

Tất nhiên, ngay cả khi các chính sách truyền thông xã hội thay đổi và những thứ này ngừng hiển thị trên các nguồn cấp dữ liệu truyền thông xã hội của bạn, điều đó không phủ nhận thực tế là thông tin luôn có sẵn và thường có sẵn cho người trả giá cao nhất. Trước đây, phần lớn dữ liệu nhạy cảm của bạn đã được bảo vệ hợp pháp — ví dụ: tại Hoa Kỳ, HIPAA bảo vệ thông tin y tế của bạn khỏi bị truyền hoặc sử dụng trừ những điều kiện rất cụ thể. Tuy nhiên, rất ít biện pháp bảo vệ như vậy tồn tại đối với thông tin thu thập được từ siêu dữ liệu của bạn ở hầu hết các khu vực pháp lý, mặc dù điều đó đang thay đổi.

4.2. Siêu dữ liệu được thu thập để giám sát

Có rất nhiều cách sử dụng siêu dữ liệu ngoài việc chỉ quảng cáo và nhắm mục tiêu nội dung. Trong số những tranh cãi nhất là giám sát. Edward Snowden đã gây ra một cuộc tranh cãi lớn khi đưa ra bằng chứng cho thấy Cơ quan An ninh Quốc gia Hoa Kỳ đang thu thập siêu dữ liệu từ hàng trăm triệu tin nhắn văn bản mỗi ngày, trong số những thứ khác.

Cảnh sát có thể làm điều gì đó tương tự, mặc dù ở quy mô nhỏ hơn nhiều, bằng cách sử dụng tháp cá đuối gai độc. Tháp cá đuối mạo danh tháp điện thoại di động thực để lưu lượng di động gần đó được định tuyến qua chúng. Trong trường hợp này, loại dữ liệu được thu thập có thể khác nhau — bất kỳ thứ gì được truyền đi không được mã hóa đều có thể đọc được hoàn toàn, trong khi chỉ một số siêu dữ liệu sẽ bị lộ nếu thông tin liên lạc được mã hóa.

Lưu ý: Một số ứng dụng nhắn tin (như Signal ) cố gắng giảm thiểu lượng siêu dữ liệu không được mã hóa và họ nói rằng họ cũng không lưu trữ siêu dữ liệu.

Ngay cả khi không có nội dung thực sự trong tin nhắn của bạn, vẫn có quá nhiều thông tin có sẵn trong siêu dữ liệu để xác định bạn liên kết với ai, thời điểm bạn nói chuyện với họ và thậm chí có khả năng thu thập các chuyển động của bạn.

5. Siêu dữ liệu có phải là mối quan tâm về quyền riêng tư không?

Hầu hết mọi tệp kỹ thuật số hiện có sẽ có một số siêu dữ liệu được liên kết với nó — đôi khi chính tệp đó chứa siêu dữ liệu, những lần khác, siêu dữ liệu được hệ điều hành lưu trữ riêng. Phần lớn các video và hình ảnh được tải lên Internet hiện có siêu dữ liệu tự động bị xóa — tất cả các trang web truyền thông xã hội lớn và hầu hết các nền tảng lưu trữ hình ảnh đều xóa siêu dữ liệu và hầu hết các ứng dụng trò chuyện hiện đại, bao gồm Slack, Discord, WhatsApp, Facebook Messenger, Signal, cũng vậy. và Điện tín.

Cảnh báo: Tải ảnh của bạn lên dịch vụ lưu trữ đám mây sẽ không xóa siêu dữ liệu, vì vậy hãy cẩn thận khi chia sẻ ảnh theo cách đó. Gửi hình ảnh qua email cũng sẽ không loại bỏ siêu dữ liệu.

Quan trọng hơn, mọi thứ bạn làm đều tạo ra siêu dữ liệu. Siêu dữ liệu được tạo bất kỳ lúc nào bạn truyền hoặc nhận dữ liệu qua mạng di động hoặc trên internet. Dữ liệu này được thu thập bởi chính phủ cũng như các công ty tư nhân và có thể được sử dụng để phân tích hành vi của các cá nhân hoặc nhóm.

Xem xét mức độ phổ biến của siêu dữ liệu — và mức độ tiết lộ của siêu dữ liệu — rõ ràng đó là mối quan tâm về quyền riêng tư.

Hầu hết các thiết bị thông minh đều thu thập thông tin sử dụng và Internet vạn vật (IoT) chỉ sẵn sàng mở rộng lượng dữ liệu và siêu dữ liệu được thu thập. Siêu dữ liệu của bạn thường có thể tiết lộ như dữ liệu của bạn. Thực hiện các bước bạn có thể để bảo vệ quyền riêng tư của mình và thận trọng khi tải thông tin lên internet.