Công nghệ khai thác dữ liệu là gì?

Hà Dương Cự

Dữ liệu liên kết thế giới. (Hình: news.mit.edu)

Tuần trước tôi có nói về Facebook và vụ tai tiếng Cambridge Analytica. Trong vụ đó, Cambridge Analytica đã lấy được dữ liệu của 87 triệu người dùng facebook rồi dùng dữ liệu ấy để xen vào cuộc bầu cử tổng thống Hoa Kỳ. Kỹ thuật Cambridge Analytica dùng để gạn lọc dữ liệu được gọi là khai thác dữ liệu (data mining). Trong bài này tôi xin nói về công nghệ khai thác dữ liệu.

Số lượng dữ liệu phát sinh

Thế giới bây giờ là thời đại thông tin và dữ liệu. Nhất cử nhất động của bạn trên mạng ảo đều được ghi lại hết và lưu trữ ở đâu đó. Trên một bài báo của New York Times, phóng viên Brian Chen đi tìm hiểu về dữ liệu cá nhân nào của ông ta mà Google lưu trữ. Ông ta thấy là Google có chứa tới 8 gigabytes chỉ là điện thư của ông ta thôi, chưa kể đến những trang mạng mà ông đã vào trong nhiều năm nay.

Đơn vị đo dữ liệu

Vì có quá nhiều dữ liệu nên người ta phải có những đơn vị đo lường thật lớn để dùng cho dữ liệu. Chắc bạn cũng đã quen thuộc với đơn vị megabyte viết tắt là MB. Một bài hát thường khoảng 4 hay 5 MB và một hình chụp bằng một máy ảnh kỹ thuật số có thể từ 2 tới 16 MB. Những đơn vị kế tiếp là:

1 gigabyte (GB) = 1000 MB
1 terabyte (TB) = 1000 GB
1 petabyte (PB) = 1000 TB
1 exabyte (EB) = 1000 PB
1 zettabyte (ZB) = 1000 EB
1 yottabyte (YB) = 1000 ZB

Những đơn vị này rất là lớn. Để có một khái niệm chúng lớn cỡ nào, một terabyte có thể chứa tới 200,000 bài hát (giả dụ mỗi bài cỡ 5 MB) hay 1000 cuốn bách khoa tự điển Encyclopedia Britannica. Một petabyte có thể chứa 500 tỷ trang sách in.

Dữ liệu phát sinh hàng ngày

Theo IBM thì có đến 2.5 exabyte dữ liệu được phát sinh mỗi ngày trong năm 2012. Bây giờ còn tăng thêm rất nhiều. Từ đâu mà ra nhiều dữ liệu như vậy và những dữ liệu đó chứa ở đâu?

Theo mạng domo.com thì mỗi phút trong năm 2017, có trên 18 triệu người hỏi về thời tiết trên mạng The Weather Channel, trên 4 triệu người xem video trên Youtube, trên 15 triệu tin nhắn được gửi đi và có đến 3.6 triệu tìm kiếm trên Google. Tất cả những hoạt động đó đều được lưu trữ lại, do đó số dữ liệu tăng lên rất nhanh.

Đó chỉ là dữ liệu phát sinh ra từ người tiêu dùng còn có những dữ liệu phát sinh ra từ kỹ nghệ hay môi trường. Theo hãng máy bay Virgin Atlantic thì một máy bay Boeing 787 tạo ra hơn một nửa terabyte dữ liệu trong một chuyến bay.

Những công ty lớn như Google, Amazon hay Facebook đều có những trung tâm lưu trữ dữ liệu (data center) riêng của họ. Tất cả những hình ảnh hay điện thư mà bạn có đều được lưu trữ trong những trung tâm dữ liệu như vậy.

Trong một trung tâm dữ liệu của Google. (Hình: phys.org)

Cơ Quan An Ninh Quốc Gia Hoa Kỳ (US National Security Agency) có một trung tâm dữ liệu tại tiểu bang Utah với khả năng lưu trữ 1 yottabyte dữ liệu, tức là 1 triệu tỷ GB.

Tại sao cần có công nghệ khai thác dữ liệu

Thời buổi hiện đại, số lượng dữ liệu được thu thập càng ngày càng nhiều, nên cần có những dụng cụ để phân tích dữ liệu và rút ra những kết quả có ích. Một thí dụ là khi dịch cúm xảy ra tại một vùng nào đó thì Google biết trước hết. Vì Google dùng những thuật toán đặc biệt để có thể liên kết sự tìm kiếm những từ về bệnh cúm và số người bị bệnh cúm. Nếu số tìm kiếm về bệnh cúm đột nhiên tăng vọt lên ở một vùng nào đó, như quận Cam chẳng hạn, thì Google biết ngay là quận Cam đang có dịch cúm. Họ còn có thể ước tính số người bị cúm, tùy theo số tìm kiếm những từ về bệnh cúm. Nếu dùng phương pháp cổ điển như chờ các bác sĩ, nhà thương và nhà thuốc tây báo cáo số người bị cúm lên sở y tế thì sẽ bị chậm hơn Google hai tuần.

Kỹ thuật khai thác dữ liệu

Trước thập niên 1960 cũng có những khai thác dữ liệu nhưng rất thô sơ, trong thập niên 1970 và 1980 mới bắt đầu có những cơ sở dữ liệu (database) và những kỹ thuật như: cơ sở dữ liệu liên quan (relational database), lập chỉ mục (indexing) và những ngôn ngữ truy vấn (query language) như SQL. Đến cuối thập niên 1980 tới nay thì đã phát triển nhiều kỹ thuật tối tân hơn để khai thác dữ liệu.

Sau đây là những giai đoạn của sự khai thác dữ liệu:

Tiền xử lý: vấn đề đầu tiên của khai thác dữ liệu là phải gạn lọc bỏ những dữ liệu sai hay dị biệt. Giai đoạn này gọi là tiền xử lý (preprocessing).

Kết hợp dữ liệu: nếu có nhiều nguồn dữ liệu thì phải kết hợp các cơ sở dữ liệu đó với nhau.

Chọn lọc dữ liệu: vì có quá nhiều dữ liệu nên phải biết chọn dữ liệu nào cần cho việc phân tích.

Phân tích dữ liệu: đây là giai đoạn chính trong công việc khai thác dữ liệu. Có nhiều kỹ thuật dùng để rút ra những kết quả mong muốn. Những kỹ thuật chính để phân tích dữ liệu là:

Liên kết: đây là kỹ thuật để tìm sự liên kết của những phần tử khác nhau. Thí dụ một công ty điện tử dùng kỹ thuật khai thác dữ liệu có thể nhận biết là khách hàng từ 19 đến 29 tuổi thường thích mua trò chơi điện tử.

Phân loại: đây là một kỹ thuật thông thường nhất trong công nghệ khai thác dữ liệu. Thí dụ khách hàng được phân loại theo từng lứa tuổi, sự thu nhập và nhiều yếu tố khác.

Tụ nhóm: là một quy trình để nhận biết các dữ liệu giống nhau ở một điểm nào đó.

Hiện hình hóa (visualization): dữ liệu có thể trình bày như một bức tranh hay biểu đồ. Nhìn vào đó người ta có thể thấy được những mô hình ẩn dấu.

Tiên đoán: khai thác dữ liệu để biết chiều hướng đi của một tính chất nào đó và do đó có thể tiên đoán trong tương lai.

Những áp dụng của công nghệ khai thác dữ liệu

Nghiên cứu thị trường

Áp dụng lớn nhất của công nghệ khai thác dữ liệu phải nói là ngành nghiên cứu thị trường. Khai thác dữ liệu giúp cho các công nghiệp xếp loại khách hàng, họ biết loại khách hàng nào sẽ mua sản phẩm nào. Khai thác dữ liệu còn chia khách hàng thành từng nhóm có cùng chung những đặc tính như là cùng sở thích và có cách tiêu xài giống nhau và cùng cỡ đồng lương. Dùng khai thác dữ liệu các công ty có thể nhằm quảng cáo đặc biệt cho một nhóm nhỏ nào đó.

Khám phá sự lừa lọc

Trong ngành thẻ tín dụng hay viễn thông, khai thác dữ liệu được dùng để khám phá những sự lừa lọc bằng cách nhận ra những dạng thức khác thường với khuôn mẫu sẵn có.

Kỹ nghệ sản xuất

Khai thác dữ liệu được dùng trong những quá trình sản xuất để khám phá ra những mô hình đặc biệt trong những quá trình sản xuất phức tạp.

Phân tích trong việc khảo cứu

Những kỹ thuật làm sạch dữ liệu, tiền xử lý dữ liệu và tích hợp các cơ sở dữ liệu giúp rất nhiều trong những công trình khảo cứu. Kỹ thuật hiển thị dữ liệu (data visualization) cũng giúp cho các nhà khảo cứu thấy được những mô hình trong dữ liệu dễ hơn.

Sinh tin học (bio informatics)

Sinh tin học là một ngành mới có rất nhiều dữ liệu nên rất thích hợp với công nghệ khai thác dữ liệu. Những áp dụng của khai thác dữ liệu gồm có việc tìm gien (gene), tiên lượng bệnh và nhiều việc khác.

Công nghệ khai thác dữ liệu sẽ còn phát triển rất nhiều trong tương lai.

—————–
Nguồn tài liệu:

http://www.iflscience.com
https://www.domo.com
https://www.ibm.com

Ứng viên Bộ Trưởng Cựu Chiến Binh Mỹ xin rút tên


Báo Người Việt hoan nghênh quý vị độc giả đóng góp và trao đổi ý kiến. Chúng tôi xin quý vị theo một số quy tắc sau đây:

Tôn trọng sự thật.
Tôn trọng các quan điểm bất đồng.
Dùng ngôn ngữ lễ độ, tương kính.
Không cổ võ độc tài phản dân chủ.
Không cổ động bạo lực và óc kỳ thị.
Không vi phạm đời tư, không mạ lỵ cá nhân cũng như tập thể.

Tòa soạn sẽ từ chối đăng tải các ý kiến không theo những quy tắc trên.

Xin quý vị dùng chữ Việt có đánh dấu đầy đủ. Những thư viết không dấu có thể bị từ chối vì dễ gây hiểu lầm cho người đọc. Tòa soạn có thể hiệu đính lời văn nhưng không thay đổi ý kiến của độc giả, và sẽ không đăng các bức thư chỉ lập lại ý kiến đã nhiều người viết. Việc đăng tải các bức thư không có nghĩa báo Người Việt đồng ý với tác giả.

Thịt bò BBQ đậm mùi khói hiếm thấy ở Orange County

Orange County có rất ít quán bán BBQ kiểu Mỹ đúng kiểu và nhà hàng LA Brisket ở Costa Mesa là một trong số ít các quán đó.

Bệnh nhân đột quỵ tim chỉ trả viện phí $332 thay vì $108,951

Một bệnh viện ở Texas phải giảm hóa đơn viện phí cho việc chăm sóc một giáo viên bị đột quỵ tim từ $108.951 xuống còn $332.

Sữa chua và công dụng chữa bệnh

Sữa chua cung cấp số năng lượng tương đương với sữa tươi, nhưng giá trị dinh dưỡng cao hơn. Sữa chua có nhiều chất đạm...

Châu Á làm giàu nhanh hơn Mỹ và Châu Âu

Châu Á đang tạo ra nhiều người giàu sụ - những người có tài sản trị giá từ $30 triệu trở lên - và tích lũy tài sản với một nhịp độ nhanh...

Nhiều người khai gian để đủ điều kiện vay tiền mua nhà

Trị giá nhà cao, thị trường nhà đất cạnh tranh gay gắt, và có thêm người mua muốn dọn vào, nên số người mua nói dối và gian lận gia tăng.

Công ty Shell thí nghiệm dịch vụ bán xăng mới tại Mỹ

Công ty Royal Dutch Shell, hiện là công ty bán lẻ nhiên liệu lớn nhất ở Mỹ, vừa có một chương trình thí  nghiệm giúp khách hàng có thể đổ đầy bình xăng hay sạc bình điện của xe

Thủ tục dự trù tài sản

Như đã trình bày, nếu ai nghĩ đến tương lai muốn an bài cho những người thân trong gia đình có được một cuộc sống đầy đủ sau khi mình chết đi thì nên lập kế hoạch dự trù tài sản càng sớm càng tốt.

Nhiều tin không vui cho ngành xe hơi Mỹ trước mùa bán xe cuối năm

Đây là thời điểm bán xe quan trọng nhất, bận rộn nhất. Tuy nhiên, năm nay giới buôn bán xe đang phải đón nhận nhiều tin không vui cho ngành công nghiệp xe hơi Hoa Kỳ.

Chuẩn bị hồ sơ phỏng vấn với lãnh sự quán Mỹ

Hồ sơ bị từ chối vì người thừa hưởng không biết chi tiết về đời sống của người bảo lãnh, hai người chỉ liên lạc bằng vài lá thư...

Ghi danh Medicare Phần D

Nếu muốn có một chương trình Thuốc Phần D ngay Tháng Mười Một, 2018, được phép ghi danh vào chương trình Kaiser Senior Advantage.