Bài F16. Máy tính, thuật toán và Khoa học dữ liệu

Khởi động (SGK Chân trời sáng tạo - Trang 151)

Hướng dẫn giải

Những khả năng đã làm cho máy tính trở thành một công cụ xử lí thông tin hiệu quả:
- Khả năng tính toán nhanh.
- Tính toán với độ chính xác nhanh.
- Khả năng lưu trữ lớn.
- Khả năng "làm việc" không mệt mỏi.

(Trả lời bởi Người Già)
Thảo luận (1)

Câu hỏi mục 1 (SGK Chân trời sáng tạo - Trang 153)

Hướng dẫn giải

Khoa học dữ liệu sử dụng internet, điện toán đám mây để lưu trữ và quản lí khối lượng lớn dữ liệu, cho phép sử dụng nguồn lực tính toán mạnh mẽ để xử lí dữ liệu lớn.

(Trả lời bởi Người Già)
Thảo luận (1)

Câu hỏi mục 2 (SGK Chân trời sáng tạo - Trang 155)

Hướng dẫn giải

Sử dụng máy tính và thuật toán trong xử lí dữ liệu lớn có nhiều ưu điểm như tăng tốc độ xử lý, khả năng tự động hoá, tính đa dạng, tính chính xác, khả năng mở rộng, khả năng lưu trữ, tiết kiệm thời gian,..

(Trả lời bởi Người Già)
Thảo luận (1)

Luyện tập 1 (SGK Chân trời sáng tạo - Trang 155)

Hướng dẫn giải

Các yếu tố chính của dữ liệu lớn: Dữ liệu lớn bao gồm năm yếu tố chính, thường được gọi là 5V, bao gồm: Khối lượng (Volume) đề cập tới khối lượng dữ liệu rất lớn; Tốc độ (Velocity) đề cập tới dữ liệu được tạo ra rất nhanh; Đa dạng (Variety) đề cập tới các loại dữ liệu khác nhau, bao gồm dữ liệu có cấu trúc (cơ sở dữ liệu quan hệ), bán cấu trúc (XML, JSON) và phi cấu trúc (email, bài đăng trên mạng xã hội, âm thanh, hình ảnh, video); Độ tin cậy hay độ xác thực (Veracity) đề cập đến độ tin cậy và chất lượng của dữ liệu; Giá trị (Value) đề cập tới giá trị mà dữ liệu mang lại.

(Trả lời bởi Người Già)
Thảo luận (1)

Luyện tập 2 (SGK Chân trời sáng tạo - Trang 155)

Hướng dẫn giải

Ví dụ 1: Vào năm 2020, GPT-3 của OpenAI đã thu thập khoảng 45 TB dữ liệu thô từ sách, tạp chí, trang web,... với nhiều chủ đề khác nhau. Sau đó, dữ liệu thô được xử lí để tạo ra 570 GB dữ liệu vào cho mô hình học máy. Lượng dữ liệu thô thu thập dùng cho GPT-3 tương đương khoảng 200 000 giờ video Full HD hoặc 15 triệu giờ âm thanh định dạng MP3. Các phiên bản khác nhau của GPT-3 sử dụng từ 125 triệu đến 175 tỉ tham số (phụ thuộc vào số tầng trong mạng học sâu của mô hình). Theo ước tính, việc đào tạo mô hình GPT-3 với 175 tỉ tham số cần hàng trăm năm với 1 GPU V100. Để giảm thời huấn luyện mô hình học máy, OpenAI đã sử dụng 1024 GPU NVIDIA A100 để huấn luyện mô hình GPT-3 trong 34 ngày.

Ví dụ 2: Protein là nhân tố thiết yếu cho sự sống được hình thành từ các amino axit, sau đó trải qua quá trình gấp xoắn để hình thành cấu trúc 3D phức tạp. Chức năng của protein phụ thuộc chủ yếu vào cấu trúc 3D của nó. Trong nhiều thập kỉ, các nhà nghiên cứu đã giải mã cấu trúc 3D của protein bằng cách sử dụng các kĩ thuật như tinh thể học tia X (X-ray crystallography) hoặc kính hiển vi điện tử lạnh (Cryogenic electron microscopy viết tắt là Cryo-EM) và đã giải được cấu trúc của 170 000 protein trong số khoảng 200 triệu protein. Theo ước tính, để dự đoán cấu trúc một protein dựa trên phương pháp tinh thể học tia X cần từ vài tháng đến hàng năm.

(Trả lời bởi Người Già)
Thảo luận (1)

Vận dụng 1 (SGK Chân trời sáng tạo - Trang 155)

Hướng dẫn giải

Dữ liệu tạo ra từ mạng xã hội có các tính chất của dữ liệu lớn bằng không. Vì: Xử dụng dũ liệu lớn có nhiều ưu điểm như tăng tốc độ xử lí, khả năng tự động hoá, tính đa dạng, tính chính xác, khả năng mở rộng, khả năng lưu trữ, tiết kiệm thời gian.

(Trả lời bởi Người Già)
Thảo luận (1)

Vận dụng 2 (SGK Chân trời sáng tạo - Trang 155)

Hướng dẫn giải

Vai trò của tự động hoá trong Khoa học dữ liệu: Thuật toán giúp tự động hoá nhiều quy trình xử lý dữ liệu, giảm bớt sự phụ thuộc vào các quá trình thủ công. Ví dụ, sử dụng các thuật toán để tự động hoá các nhiệm vụ có tính chất lặp lại như làm sạch dữ liệu, đồng bộ hoá dữ liệu giữa các nguồn lưu trữ khác nhau.

(Trả lời bởi Người Già)
Thảo luận (1)