Friday, March 29, 2024

Công nghệ khai thác dữ liệu là gì?

Hà Dương Cự

Tuần trước tôi có nói về Facebook và vụ tai tiếng Cambridge Analytica. Trong vụ đó, Cambridge Analytica đã lấy được dữ liệu của 87 triệu người dùng facebook rồi dùng dữ liệu ấy để xen vào cuộc bầu cử tổng thống Hoa Kỳ. Kỹ thuật Cambridge Analytica dùng để gạn lọc dữ liệu được gọi là khai thác dữ liệu (data mining). Trong bài này tôi xin nói về công nghệ khai thác dữ liệu.

Số lượng dữ liệu phát sinh

Thế giới bây giờ là thời đại thông tin và dữ liệu. Nhất cử nhất động của bạn trên mạng ảo đều được ghi lại hết và lưu trữ ở đâu đó. Trên một bài báo của New York Times, phóng viên Brian Chen đi tìm hiểu về dữ liệu cá nhân nào của ông ta mà Google lưu trữ. Ông ta thấy là Google có chứa tới 8 gigabytes chỉ là điện thư của ông ta thôi, chưa kể đến những trang mạng mà ông đã vào trong nhiều năm nay.

Đơn vị đo dữ liệu

Vì có quá nhiều dữ liệu nên người ta phải có những đơn vị đo lường thật lớn để dùng cho dữ liệu. Chắc bạn cũng đã quen thuộc với đơn vị megabyte viết tắt là MB. Một bài hát thường khoảng 4 hay 5 MB và một hình chụp bằng một máy ảnh kỹ thuật số có thể từ 2 tới 16 MB. Những đơn vị kế tiếp là:

1 gigabyte (GB) = 1000 MB
1 terabyte (TB) = 1000 GB
1 petabyte (PB) = 1000 TB
1 exabyte (EB) = 1000 PB
1 zettabyte (ZB) = 1000 EB
1 yottabyte (YB) = 1000 ZB

Những đơn vị này rất là lớn. Để có một khái niệm chúng lớn cỡ nào, một terabyte có thể chứa tới 200,000 bài hát (giả dụ mỗi bài cỡ 5 MB) hay 1000 cuốn bách khoa tự điển Encyclopedia Britannica. Một petabyte có thể chứa 500 tỷ trang sách in.

Dữ liệu phát sinh hàng ngày

Theo IBM thì có đến 2.5 exabyte dữ liệu được phát sinh mỗi ngày trong năm 2012. Bây giờ còn tăng thêm rất nhiều. Từ đâu mà ra nhiều dữ liệu như vậy và những dữ liệu đó chứa ở đâu?

Theo mạng domo.com thì mỗi phút trong năm 2017, có trên 18 triệu người hỏi về thời tiết trên mạng The Weather Channel, trên 4 triệu người xem video trên Youtube, trên 15 triệu tin nhắn được gửi đi và có đến 3.6 triệu tìm kiếm trên Google. Tất cả những hoạt động đó đều được lưu trữ lại, do đó số dữ liệu tăng lên rất nhanh.

Đó chỉ là dữ liệu phát sinh ra từ người tiêu dùng còn có những dữ liệu phát sinh ra từ kỹ nghệ hay môi trường. Theo hãng máy bay Virgin Atlantic thì một máy bay Boeing 787 tạo ra hơn một nửa terabyte dữ liệu trong một chuyến bay.

Những công ty lớn như Google, Amazon hay Facebook đều có những trung tâm lưu trữ dữ liệu (data center) riêng của họ. Tất cả những hình ảnh hay điện thư mà bạn có đều được lưu trữ trong những trung tâm dữ liệu như vậy.

Trong một trung tâm dữ liệu của Google. (Hình: phys.org)

Cơ Quan An Ninh Quốc Gia Hoa Kỳ (US National Security Agency) có một trung tâm dữ liệu tại tiểu bang Utah với khả năng lưu trữ 1 yottabyte dữ liệu, tức là 1 triệu tỷ GB.

Tại sao cần có công nghệ khai thác dữ liệu

Thời buổi hiện đại, số lượng dữ liệu được thu thập càng ngày càng nhiều, nên cần có những dụng cụ để phân tích dữ liệu và rút ra những kết quả có ích. Một thí dụ là khi dịch cúm xảy ra tại một vùng nào đó thì Google biết trước hết. Vì Google dùng những thuật toán đặc biệt để có thể liên kết sự tìm kiếm những từ về bệnh cúm và số người bị bệnh cúm. Nếu số tìm kiếm về bệnh cúm đột nhiên tăng vọt lên ở một vùng nào đó, như quận Cam chẳng hạn, thì Google biết ngay là quận Cam đang có dịch cúm. Họ còn có thể ước tính số người bị cúm, tùy theo số tìm kiếm những từ về bệnh cúm. Nếu dùng phương pháp cổ điển như chờ các bác sĩ, nhà thương và nhà thuốc tây báo cáo số người bị cúm lên sở y tế thì sẽ bị chậm hơn Google hai tuần.

Kỹ thuật khai thác dữ liệu

Trước thập niên 1960 cũng có những khai thác dữ liệu nhưng rất thô sơ, trong thập niên 1970 và 1980 mới bắt đầu có những cơ sở dữ liệu (database) và những kỹ thuật như: cơ sở dữ liệu liên quan (relational database), lập chỉ mục (indexing) và những ngôn ngữ truy vấn (query language) như SQL. Đến cuối thập niên 1980 tới nay thì đã phát triển nhiều kỹ thuật tối tân hơn để khai thác dữ liệu.

Sau đây là những giai đoạn của sự khai thác dữ liệu:

Tiền xử lý: vấn đề đầu tiên của khai thác dữ liệu là phải gạn lọc bỏ những dữ liệu sai hay dị biệt. Giai đoạn này gọi là tiền xử lý (preprocessing).

Kết hợp dữ liệu: nếu có nhiều nguồn dữ liệu thì phải kết hợp các cơ sở dữ liệu đó với nhau.

Chọn lọc dữ liệu: vì có quá nhiều dữ liệu nên phải biết chọn dữ liệu nào cần cho việc phân tích.

Phân tích dữ liệu: đây là giai đoạn chính trong công việc khai thác dữ liệu. Có nhiều kỹ thuật dùng để rút ra những kết quả mong muốn. Những kỹ thuật chính để phân tích dữ liệu là:

Liên kết: đây là kỹ thuật để tìm sự liên kết của những phần tử khác nhau. Thí dụ một công ty điện tử dùng kỹ thuật khai thác dữ liệu có thể nhận biết là khách hàng từ 19 đến 29 tuổi thường thích mua trò chơi điện tử.

Phân loại: đây là một kỹ thuật thông thường nhất trong công nghệ khai thác dữ liệu. Thí dụ khách hàng được phân loại theo từng lứa tuổi, sự thu nhập và nhiều yếu tố khác.

Tụ nhóm: là một quy trình để nhận biết các dữ liệu giống nhau ở một điểm nào đó.

Hiện hình hóa (visualization): dữ liệu có thể trình bày như một bức tranh hay biểu đồ. Nhìn vào đó người ta có thể thấy được những mô hình ẩn dấu.

Tiên đoán: khai thác dữ liệu để biết chiều hướng đi của một tính chất nào đó và do đó có thể tiên đoán trong tương lai.

Những áp dụng của công nghệ khai thác dữ liệu

Nghiên cứu thị trường

Áp dụng lớn nhất của công nghệ khai thác dữ liệu phải nói là ngành nghiên cứu thị trường. Khai thác dữ liệu giúp cho các công nghiệp xếp loại khách hàng, họ biết loại khách hàng nào sẽ mua sản phẩm nào. Khai thác dữ liệu còn chia khách hàng thành từng nhóm có cùng chung những đặc tính như là cùng sở thích và có cách tiêu xài giống nhau và cùng cỡ đồng lương. Dùng khai thác dữ liệu các công ty có thể nhằm quảng cáo đặc biệt cho một nhóm nhỏ nào đó.

Khám phá sự lừa lọc

Trong ngành thẻ tín dụng hay viễn thông, khai thác dữ liệu được dùng để khám phá những sự lừa lọc bằng cách nhận ra những dạng thức khác thường với khuôn mẫu sẵn có.

Kỹ nghệ sản xuất

Khai thác dữ liệu được dùng trong những quá trình sản xuất để khám phá ra những mô hình đặc biệt trong những quá trình sản xuất phức tạp.

Phân tích trong việc khảo cứu

Những kỹ thuật làm sạch dữ liệu, tiền xử lý dữ liệu và tích hợp các cơ sở dữ liệu giúp rất nhiều trong những công trình khảo cứu. Kỹ thuật hiển thị dữ liệu (data visualization) cũng giúp cho các nhà khảo cứu thấy được những mô hình trong dữ liệu dễ hơn.

Sinh tin học (bio informatics)

Sinh tin học là một ngành mới có rất nhiều dữ liệu nên rất thích hợp với công nghệ khai thác dữ liệu. Những áp dụng của khai thác dữ liệu gồm có việc tìm gien (gene), tiên lượng bệnh và nhiều việc khác.

Công nghệ khai thác dữ liệu sẽ còn phát triển rất nhiều trong tương lai.

—————–
Nguồn tài liệu:

http://www.iflscience.com
https://www.domo.com
https://www.ibm.com

Ứng viên Bộ Trưởng Cựu Chiến Binh Mỹ xin rút tên

CÓ THỂ BẠN QUAN TÂM

MỚI CẬP NHẬT