3Blue1Brown Giải Thích Về Kiến Trúc Transformer Của ChatGPT

Đây là cách mà một video blogger rất nổi tiếng trong giới toán học, giải thích về Transformer kiến trúc hạ tầng chính của mô hình AI gen từ prompt text gọi chung là Large Language Model (mô hình ngôn ngữ lớn), bắt đầu với loạt thông tin Chat GPT, GPT là gì ?

GPT là viết tắt của chữ Generative Pretrained Transformer:

  • Generative cho biết đây là con bot AI sẽ tự động tạo ra các kiểu văn bản (text).
  • Pretrained cho biết mô hình này sẽ trải qua một quá trình tu luyện (training) dựa trên khối lượng dữ liệu khổng lồ, và nó luôn có rất nhiều chỗ để cải thiện, gia giảm dựa trên những nhu cầu cụ thể.
  • Transformer là từ khóa chính của Chat GPT mà OpenAI đã tạo ra, đây chính là kiến trúc chính, một bộ não, AI này dựa trên một mạng các neuron là kỹ thuật chính thực thi của mô hình (model) để được tu luyện (training). Các mạng neuron này (Neuron Network) cũng chính là xu hướng quan trọng tạo nên cú hích trong thời kỳ trí tuệ nhân tạo đang nổi như cồn hiện nay.

Với video của 3Blue1Brown sẽ đưa nội dung sâu sắc về cách mà Chat GPT hoạt động thực tiễn, một chat bot AI có giá trị tới 80 tỷ đô la Mỹ đầu tư, có sự tham gia của Microsoft hậu thuẫn ở mọi mặt trận, tốn không biết bao nhiêu giấy mực kỹ thuật số của truyền thông toàn cầu, chưa kể sự ganh tị hiềm khích tạo ra bởi Elon Musk – tỷ phú sỡ hữu mạng Twitter, xe điện Tesla…. Đây cũng là mô hình AI mà Google làm rất nhiều hành động nhưng vẫn kém cỏi và thua xa tại thời điểm hiện tại.

https://www.youtube.com/watch?v=wjZofJX0v4M

Post Author: Vu Pham