Công nghệ khai thác dữ liệu là gì?

Hà Dương Cự

Dữ liệu liên kết thế giới. (Hình: news.mit.edu)

Tuần trước tôi có nói về Facebook và vụ tai tiếng Cambridge Analytica. Trong vụ đó, Cambridge Analytica đã lấy được dữ liệu của 87 triệu người dùng facebook rồi dùng dữ liệu ấy để xen vào cuộc bầu cử tổng thống Hoa Kỳ. Kỹ thuật Cambridge Analytica dùng để gạn lọc dữ liệu được gọi là khai thác dữ liệu (data mining). Trong bài này tôi xin nói về công nghệ khai thác dữ liệu.

Số lượng dữ liệu phát sinh

Thế giới bây giờ là thời đại thông tin và dữ liệu. Nhất cử nhất động của bạn trên mạng ảo đều được ghi lại hết và lưu trữ ở đâu đó. Trên một bài báo của New York Times, phóng viên Brian Chen đi tìm hiểu về dữ liệu cá nhân nào của ông ta mà Google lưu trữ. Ông ta thấy là Google có chứa tới 8 gigabytes chỉ là điện thư của ông ta thôi, chưa kể đến những trang mạng mà ông đã vào trong nhiều năm nay.

Đơn vị đo dữ liệu

Vì có quá nhiều dữ liệu nên người ta phải có những đơn vị đo lường thật lớn để dùng cho dữ liệu. Chắc bạn cũng đã quen thuộc với đơn vị megabyte viết tắt là MB. Một bài hát thường khoảng 4 hay 5 MB và một hình chụp bằng một máy ảnh kỹ thuật số có thể từ 2 tới 16 MB. Những đơn vị kế tiếp là:

1 gigabyte (GB) = 1000 MB
1 terabyte (TB) = 1000 GB
1 petabyte (PB) = 1000 TB
1 exabyte (EB) = 1000 PB
1 zettabyte (ZB) = 1000 EB
1 yottabyte (YB) = 1000 ZB

Những đơn vị này rất là lớn. Để có một khái niệm chúng lớn cỡ nào, một terabyte có thể chứa tới 200,000 bài hát (giả dụ mỗi bài cỡ 5 MB) hay 1000 cuốn bách khoa tự điển Encyclopedia Britannica. Một petabyte có thể chứa 500 tỷ trang sách in.

Dữ liệu phát sinh hàng ngày

Theo IBM thì có đến 2.5 exabyte dữ liệu được phát sinh mỗi ngày trong năm 2012. Bây giờ còn tăng thêm rất nhiều. Từ đâu mà ra nhiều dữ liệu như vậy và những dữ liệu đó chứa ở đâu?

Theo mạng domo.com thì mỗi phút trong năm 2017, có trên 18 triệu người hỏi về thời tiết trên mạng The Weather Channel, trên 4 triệu người xem video trên Youtube, trên 15 triệu tin nhắn được gửi đi và có đến 3.6 triệu tìm kiếm trên Google. Tất cả những hoạt động đó đều được lưu trữ lại, do đó số dữ liệu tăng lên rất nhanh.

Đó chỉ là dữ liệu phát sinh ra từ người tiêu dùng còn có những dữ liệu phát sinh ra từ kỹ nghệ hay môi trường. Theo hãng máy bay Virgin Atlantic thì một máy bay Boeing 787 tạo ra hơn một nửa terabyte dữ liệu trong một chuyến bay.

Những công ty lớn như Google, Amazon hay Facebook đều có những trung tâm lưu trữ dữ liệu (data center) riêng của họ. Tất cả những hình ảnh hay điện thư mà bạn có đều được lưu trữ trong những trung tâm dữ liệu như vậy.

Trong một trung tâm dữ liệu của Google. (Hình: phys.org)

Cơ Quan An Ninh Quốc Gia Hoa Kỳ (US National Security Agency) có một trung tâm dữ liệu tại tiểu bang Utah với khả năng lưu trữ 1 yottabyte dữ liệu, tức là 1 triệu tỷ GB.

Tại sao cần có công nghệ khai thác dữ liệu

Thời buổi hiện đại, số lượng dữ liệu được thu thập càng ngày càng nhiều, nên cần có những dụng cụ để phân tích dữ liệu và rút ra những kết quả có ích. Một thí dụ là khi dịch cúm xảy ra tại một vùng nào đó thì Google biết trước hết. Vì Google dùng những thuật toán đặc biệt để có thể liên kết sự tìm kiếm những từ về bệnh cúm và số người bị bệnh cúm. Nếu số tìm kiếm về bệnh cúm đột nhiên tăng vọt lên ở một vùng nào đó, như quận Cam chẳng hạn, thì Google biết ngay là quận Cam đang có dịch cúm. Họ còn có thể ước tính số người bị cúm, tùy theo số tìm kiếm những từ về bệnh cúm. Nếu dùng phương pháp cổ điển như chờ các bác sĩ, nhà thương và nhà thuốc tây báo cáo số người bị cúm lên sở y tế thì sẽ bị chậm hơn Google hai tuần.

Kỹ thuật khai thác dữ liệu

Trước thập niên 1960 cũng có những khai thác dữ liệu nhưng rất thô sơ, trong thập niên 1970 và 1980 mới bắt đầu có những cơ sở dữ liệu (database) và những kỹ thuật như: cơ sở dữ liệu liên quan (relational database), lập chỉ mục (indexing) và những ngôn ngữ truy vấn (query language) như SQL. Đến cuối thập niên 1980 tới nay thì đã phát triển nhiều kỹ thuật tối tân hơn để khai thác dữ liệu.

Sau đây là những giai đoạn của sự khai thác dữ liệu:

Tiền xử lý: vấn đề đầu tiên của khai thác dữ liệu là phải gạn lọc bỏ những dữ liệu sai hay dị biệt. Giai đoạn này gọi là tiền xử lý (preprocessing).

Kết hợp dữ liệu: nếu có nhiều nguồn dữ liệu thì phải kết hợp các cơ sở dữ liệu đó với nhau.

Chọn lọc dữ liệu: vì có quá nhiều dữ liệu nên phải biết chọn dữ liệu nào cần cho việc phân tích.

Phân tích dữ liệu: đây là giai đoạn chính trong công việc khai thác dữ liệu. Có nhiều kỹ thuật dùng để rút ra những kết quả mong muốn. Những kỹ thuật chính để phân tích dữ liệu là:

Liên kết: đây là kỹ thuật để tìm sự liên kết của những phần tử khác nhau. Thí dụ một công ty điện tử dùng kỹ thuật khai thác dữ liệu có thể nhận biết là khách hàng từ 19 đến 29 tuổi thường thích mua trò chơi điện tử.

Phân loại: đây là một kỹ thuật thông thường nhất trong công nghệ khai thác dữ liệu. Thí dụ khách hàng được phân loại theo từng lứa tuổi, sự thu nhập và nhiều yếu tố khác.

Tụ nhóm: là một quy trình để nhận biết các dữ liệu giống nhau ở một điểm nào đó.

Hiện hình hóa (visualization): dữ liệu có thể trình bày như một bức tranh hay biểu đồ. Nhìn vào đó người ta có thể thấy được những mô hình ẩn dấu.

Tiên đoán: khai thác dữ liệu để biết chiều hướng đi của một tính chất nào đó và do đó có thể tiên đoán trong tương lai.

Những áp dụng của công nghệ khai thác dữ liệu

Nghiên cứu thị trường

Áp dụng lớn nhất của công nghệ khai thác dữ liệu phải nói là ngành nghiên cứu thị trường. Khai thác dữ liệu giúp cho các công nghiệp xếp loại khách hàng, họ biết loại khách hàng nào sẽ mua sản phẩm nào. Khai thác dữ liệu còn chia khách hàng thành từng nhóm có cùng chung những đặc tính như là cùng sở thích và có cách tiêu xài giống nhau và cùng cỡ đồng lương. Dùng khai thác dữ liệu các công ty có thể nhằm quảng cáo đặc biệt cho một nhóm nhỏ nào đó.

Khám phá sự lừa lọc

Trong ngành thẻ tín dụng hay viễn thông, khai thác dữ liệu được dùng để khám phá những sự lừa lọc bằng cách nhận ra những dạng thức khác thường với khuôn mẫu sẵn có.

Kỹ nghệ sản xuất

Khai thác dữ liệu được dùng trong những quá trình sản xuất để khám phá ra những mô hình đặc biệt trong những quá trình sản xuất phức tạp.

Phân tích trong việc khảo cứu

Những kỹ thuật làm sạch dữ liệu, tiền xử lý dữ liệu và tích hợp các cơ sở dữ liệu giúp rất nhiều trong những công trình khảo cứu. Kỹ thuật hiển thị dữ liệu (data visualization) cũng giúp cho các nhà khảo cứu thấy được những mô hình trong dữ liệu dễ hơn.

Sinh tin học (bio informatics)

Sinh tin học là một ngành mới có rất nhiều dữ liệu nên rất thích hợp với công nghệ khai thác dữ liệu. Những áp dụng của khai thác dữ liệu gồm có việc tìm gien (gene), tiên lượng bệnh và nhiều việc khác.

Công nghệ khai thác dữ liệu sẽ còn phát triển rất nhiều trong tương lai.

—————–
Nguồn tài liệu:

http://www.iflscience.com
https://www.domo.com
https://www.ibm.com

Ứng viên Bộ Trưởng Cựu Chiến Binh Mỹ xin rút tên


Báo Người Việt hoan nghênh quý vị độc giả đóng góp và trao đổi ý kiến. Chúng tôi xin quý vị theo một số quy tắc sau đây:

Tôn trọng sự thật.
Tôn trọng các quan điểm bất đồng.
Dùng ngôn ngữ lễ độ, tương kính.
Không cổ võ độc tài phản dân chủ.
Không cổ động bạo lực và óc kỳ thị.
Không vi phạm đời tư, không mạ lỵ cá nhân cũng như tập thể.

Tòa soạn sẽ từ chối đăng tải các ý kiến không theo những quy tắc trên.

Xin quý vị dùng chữ Việt có đánh dấu đầy đủ. Những thư viết không dấu có thể bị từ chối vì dễ gây hiểu lầm cho người đọc. Tòa soạn có thể hiệu đính lời văn nhưng không thay đổi ý kiến của độc giả, và sẽ không đăng các bức thư chỉ lập lại ý kiến đã nhiều người viết. Việc đăng tải các bức thư không có nghĩa báo Người Việt đồng ý với tác giả.

Khi mua nhà cần có luật sư cố vấn pháp lý

Có nhiều vấn đề pháp lý liên quan đến việc mua một căn nhà, không phải bạn chỉ cần ký một vài giấy tờ là đã thong dong gia nhập hàng ngũ các chủ nhà.

Trồng cây bằng chậu nếu nhà ít đất

Bạn có thể trồng hầu như bất cứ cây gì nếu loại bồn, chậu mà bạn chọn đủ lớn và có chỗ thoát nước thích hợp.

Tối Cao Pháp Viện Mỹ giới hạn quyền kiện cáo của công nhân

Tối Cao Pháp Viện Mỹ hôm Thứ Hai 21 Tháng Năm công bố phán quyết theo đó giới hạn quyền của công nhân Mỹ, không cho kiện cáo mà chỉ được có sự phân xử của trọng tài.

Luật giao thông cho xe hơi bắt đầu từ xe ngựa, xe lửa

Chuyên mục xe hơi này đã bàn chuyện cổ đông tây, kim cổ trong mọi lãnh vực liên quan đến xe hơi. Nay xin thêm câu chuyện về luật đi đường từ thuở xa xưa cho đến ngày nay, từ một bài viết trên trang mạng “autoevolution.com.”

Mua bán cơ sở thương mại

Luật địa ốc Hoa Kỳ có nhiều điều khoản phức tạp trong giao dịch mua bán cơ sở thương mại là những bất động sàn không dùng làm nơi cư ngụ mà có mục đích sử dụng để buôn bán hoặc sản xuất tạo lợi tức.

Gìn giữ móng tay chân

Bệnh của móng có thể phục hồi sau khi điều trị, nhưng móng mọc lại rất chậm. Cho nên chăm sóc, bảo vệ móng, tránh hư hao là điều cần lưu ý.

Cách nào bảo lãnh nhân viên đến Hoa Kỳ làm việc

Để được bảo lãnh công nhân ở nước ngoài vào làm việc ở Hoa Kỳ, cơ sở thương mại phải nộp đơn chứng minh Hoa Kỳ không có nhân viên đủ khả năng

Chíp điện tử trong thẻ tín dụng

Thẻ tín dụng có chíp điện tử có tên gọi chính thức là thẻ tín dụng EMV, còn được gọi là thẻ thông minh. Thế thì thẻ này hoạt động ra sao?

Cần chuẩn bị nếu muốn làm chủ một căn nhà

Bạn có đủ sức mua một căn nhà? Việc làm có ổn định? Nơi bạn muốn sinh sống ra sao?... là những việc cần chuẩn bị nếu muốn làm chủ một căn nhà

Những giấc mơ ướt át

Ngủ mơ thấy “chuyện này nọ” rồi xuất tinh, có người gọi là mộng tinh, được các nhà nghiên cứu cho là một hiện tượng sinh lý bình thường.