Thuật ngữ Dữ liệu lớn đang ngày càng được sử dụng gần như ở mọi nơi trên hành tinh - trực tuyến và ngoại tuyến. Và nó không liên quan đến máy tính mà thôi. Nó thuộc một thuật ngữ chăn gọi là Công nghệ thông tin, hiện là một phần của hầu hết các công nghệ và lĩnh vực nghiên cứu và kinh doanh khác. Big Data không phải là vấn đề lớn. Hype xung quanh nó là một thỏa thuận khá lớn để gây nhầm lẫn cho bạn. Bài viết này xem xét Dữ liệu lớn là gì. Nó cũng chứa một ví dụ về cách NetFlix sử dụng dữ liệu của nó, hay đúng hơn là Big Data, để phục vụ tốt hơn nhu cầu của khách hàng.
Dữ liệu lớn là gì
Dữ liệu nằm trong các máy chủ của công ty bạn chỉ là dữ liệu cho đến ngày hôm qua - được sắp xếp và đệ trình. Đột nhiên, dữ liệu khổng lồ đã trở nên phổ biến và giờ đây dữ liệu trong công ty của bạn là Big Data. Thuật ngữ này bao gồm từng phần dữ liệu mà tổ chức của bạn đã lưu trữ cho đến bây giờ. Nó bao gồm dữ liệu được lưu trữ trong các đám mây và thậm chí cả các URL mà bạn đã đánh dấu. Công ty của bạn có thể đã không số hóa tất cả dữ liệu. Bạn có thể chưa cấu trúc tất cả dữ liệu. Nhưng sau đó, tất cả dữ liệu kỹ thuật số, giấy tờ, dữ liệu có cấu trúc và không được cấu trúc với công ty của bạn giờ đây là Big Data.
Tóm lại, tất cả các dữ liệu - có hay không được phân loại - hiện diện trong các máy chủ của bạn được gọi chung là LỚN DỮ LIỆU. Tất cả các dữ liệu này có thể được sử dụng để có được kết quả khác nhau bằng cách sử dụng các loại phân tích khác nhau. Nó không phải là cần thiết mà tất cả các phân tích sử dụng tất cả các dữ liệu. Phân tích khác nhau sử dụng các phần khác nhau của DỮ LIỆU LỚN để tạo ra kết quả và dự đoán cần thiết.
Dữ liệu lớn về cơ bản là dữ liệu mà bạn phân tích cho các kết quả mà bạn có thể sử dụng cho các dự đoán và các mục đích sử dụng khác. Khi sử dụng thuật ngữ Big Data, đột nhiên công ty hoặc tổ chức của bạn đang làm việc với công nghệ thông tin cấp cao nhất để suy ra các loại kết quả khác nhau bằng cách sử dụng cùng một dữ liệu mà bạn đã lưu trữ cố ý hoặc vô ý trong những năm qua.
Big Data lớn như thế nào
Về cơ bản, tất cả các dữ liệu kết hợp là Big Data, nhưng nhiều nhà nghiên cứu đồng ý rằng Big Data - như vậy - không thể được thao tác bằng các bảng tính thông thường và các công cụ quản lý cơ sở dữ liệu thông thường. Họ cần các công cụ phân tích đặc biệt như Hadoop (chúng tôi sẽ nghiên cứu điều này trong một bài đăng riêng biệt) để tất cả dữ liệu có thể được phân tích cùng một lúc (có thể bao gồm các lần phân tích).
Trái với những điều trên, mặc dù tôi không phải là chuyên gia về chủ đề, tôi sẽ nói rằng dữ liệu với bất kỳ tổ chức nào - lớn hay nhỏ, có tổ chức hoặc chưa tổ chức - là Big Data cho tổ chức đó và tổ chức có thể chọn công cụ riêng của mình để phân tích dữ liệu.
Thông thường, để phân tích dữ liệu, mọi người đã sử dụng để tạo các tập dữ liệu khác nhau dựa trên một hoặc nhiều trường phổ biến để phân tích trở nên dễ dàng. Trong trường hợp Big Data, không cần phải tạo các tập con để phân tích nó. Bây giờ chúng ta có các công cụ có thể phân tích dữ liệu bất kể nó lớn như thế nào. Có lẽ, những công cụ này tự phân loại dữ liệu ngay cả khi chúng phân tích nó.
Tôi thấy điều quan trọng là đề cập đến hai câu trong cuốn sách “Big Data” của Jimmy Guterman:
“ Big Data: when the size and performance requirements for data management become significant design and decision factors for implementing a data management and analysis system.”
- và -
“For some organizations, facing hundreds of gigabytes of data for the first time may trigger a need to reconsider data management options. For others, it may take tens or hundreds of terabytes before data size becomes a significant consideration.”
Vì vậy, bạn thấy rằng cả khối lượng và phân tích là một phần quan trọng của Big Data.
Đọc: Khai thác dữ liệu là gì?
Các khái niệm dữ liệu lớn
Đây là một điểm mà hầu hết mọi người không đồng ý. Một số chuyên gia cho rằng các khái niệm dữ liệu lớn là ba V:
- Âm lượng
- Vận tốc
- Đa dạng
Một số người khác bổ sung thêm vài V cho khái niệm này:
- Hình dung
- Veracity (Độ tin cậy)
- Biến đổi và
- Giá trị
Tôi sẽ bao gồm các khái niệm về Big Data trong một bài viết riêng biệt vì bài đăng này đã trở nên lớn. Theo tôi, ba V đầu tiên là đủ để giải thích khái niệm Big Data.
Ví dụ dữ liệu lớn - Cách NetFlix sử dụng nó để khắc phục sự cố của nó
Đến năm 2008, đã có một sự cố ngừng hoạt động tại NetFlix do nhiều khách hàng bị bỏ lại trong bóng tối. Trong khi một số vẫn có thể truy cập các dịch vụ trực tuyến, hầu hết trong số họ không thể. Một số khách hàng quản lý để có được đĩa DVD thuê của họ trong khi những người khác thất bại. Một bài đăng trên blog trên Wall Street Journal cho biết Netflix vừa mới bắt đầu theo yêu cầu trực tuyến.
Sự cúp điện khiến người quản lý nghĩ về những vấn đề có thể xảy ra trong tương lai và do đó; nó chuyển sang Big Data. Nó phân tích các khu vực giao thông cao, các điểm nhạy cảm, và thông lượng mạng, vv bằng cách sử dụng dữ liệu đó và làm việc để giảm thời gian chết nếu một vấn đề trong tương lai phát sinh khi nó đi toàn cầu. Đây là liên kết tới Blog của Journal Street Journal, nếu bạn muốn xem các ví dụ về Big Data.
Phần trên tóm tắt dữ liệu lớn trong ngôn ngữ của giáo dân. Bạn có thể gọi nó là một giới thiệu rất cơ bản. Tôi dự định viết thêm vài bài viết về các yếu tố liên quan như - Khái niệm, Phân tích, Công cụ và sử dụng Big Data, Big Data 3 V, v.v. Trong khi đó, nếu bạn muốn thêm bất cứ điều gì vào phần trên, hãy bình luận và chia sẻ chúng tôi.