Bài F16. Máy tính, thuật toán và Khoa học dữ liệu

Nội dung lý thuyết

1. Vai trò của máy tính đối với sự phát triển của Khoa học dữ liệu

Nền tảng phần cứng thúc đẩy Khoa học dữ liệu

  • Hiệu năng tính toán mạnh, bộ nhớ lớn, băng thông cao, kết nối mạng tốc độ cao.

  • Những bước tiến tiêu biểu: CPU đa lõi 16 nhân, GPU, TPU, điện toán đám mây, máy tính lượng tử… → rút ngắn thời gian xử lí & khai thác dữ liệu lớn.

Bảng 1 – Đặc điểm máy tính & tác động tới KH dữ liệu qua các thời kì

Giai đoạnĐặc điểm máy tínhTác động tới KH dữ liệu
1945 – 1955Chưa có HĐH; chỉ chạy phép tính đơnChỉ áp dụng phương pháp thống kê cơ bản trên tập dữ liệu nhỏ
1955 – 1965Xuất hiện HĐH và ngôn ngữ lập trình bậc caoMáy tính hỗ trợ đo lường, lưu trữ, phân tích dữ liệu định lượng
1965 – 1980Đa nhiệmDữ liệu tăng về lượng & độ phức tạp → yêu cầu thuật toán/phương pháp mới
1980 – 1990PC phổ biến, Internet manh nhaNở rộ các phương pháp học máy; KH dữ liệu chuyển trọng tâm sang dữ liệu lớn
1990 – 2000Internet + thiết bị di động → dữ liệu từ nhiều nguồnML & Big Data bùng nổ; kho dữ liệu phi cấu trúc ngày càng lớn
2000 → nayĐiện toán đám mây, GPU/TPUML & AI phổ biến, tự động hoá khai phá tri thức; GPU/TPU gia tốc mô hình phức tạp

Quy trình Khoa học dữ liệu:

Quy trình Khoa học dữ liệu

  1. Xác định vấn đề – đặt câu hỏi/mục tiêu cụ thể.

  2. Thu thập dữ liệu – tìm kiếm, thu thập hoặc tạo dữ liệu (chia thành dữ liệu huấn luyện & kiểm thử).

  3. Chuẩn bị dữ liệu – làm sạch, khám phá, trực quan hoá & chuẩn hoá.

  4. Xây dựng mô hình – chọn mô hình ML phù hợp.

  5. Đánh giá – đo lường hiệu suất, kiểm tra giả thuyết.

  6. Triển khai – đưa mô hình vào môi trường thực tế.

Máy tính tham gia, gia tốc từng giai đoạn: từ lưu trữ, tìm mẫu, suy diễn, đến triển khai, dự đoán thời gian thực.

Bảng 2 – Vai trò then chốt của máy tính trong Khoa học dữ liệu

Nội dungVai trò phần cứngÝ nghĩa với KH dữ liệu
Lưu trữ & xử lí dữ liệuDung lượng & băng thông lớnLưu trữ hiệu quả, truy xuất nhanh
Tính toán & trực quan hoáCPU/GPU/TPU tăng tốc toán họcRút ngắn thời gian phân tích, trực quan hoá tức thì
Điện toán đám mâyKết nối & truyền dữ liệu linh hoạtPhân tán, mở rộng linh hoạt, triển khai đa nền tảng

2. Tính ưu việt của máy tính & thuật toán trong xử lí dữ liệu lớn

Khái quát Dữ liệu lớn (Big Data):

  • Thuật ngữ xuất hiện đầu 1990, nhấn mạnh 5V: Volume, Velocity, Variety, Veracity, Value.

  • Yêu cầu hạ tầng máy tính & thuật toán mới để khai thác tri thức, dự báo, ra quyết định.

Lợi ích khi kết hợp máy tính với dữ liệu lớn:

  • Tốc độ: Xử lí hàng triệu bản ghi/giây, giảm đáng kể thời gian so với kỹ thuật truyền thống.

  • Mô hình ML trên dữ liệu lớn: Huấn luyện, tinh chỉnh mô hình phức tạp (tối ưu siêu tham số, tăng độ chính xác).

  • Khả năng mở rộng: Cụm máy tính/điện toán đám mây mở rộng linh hoạt.

  • Lưu trữ & bảo mật: Dữ liệu tập trung hoặc phân tán, sao lưu, quyền truy cập, an toàn.

  • Xử lí thời gian thực: Phân tích streaming cho giám sát, giao dịch tài chính, IoT…

Thuật toán hỗ trợ xử lí dữ liệu lớn:

  • Xử lí song song: Chia tác vụ lên nhiều nút, tận dụng đa lõi CPU, GPU.

  • Tự động hoá: Giảm can thiệp thủ công, đồng bộ hoá dữ liệu, làm sạch, tích hợp pipeline ML end‑to‑end.

Ví dụ thực tế:

  • GPT‑3 (2020): Thu thập 45 TB văn bản → 570 GB huấn luyện; cần ~1024 GPU NVIDIA A100 trong 34 ngày.

  • AlphaFold 2 (Hình 2): Dự đoán cấu trúc ~200 triệu protein; dùng 2,3 triệu cụm cấu trúc, Foldseek Cluster rút ngắn truy vấn xuống vài ngày; mở rộng hiểu biết sinh học, dược học.

Cấu trúc protein do AlphaFold dự đoá