Cơ chế cốt lõi: Tất cả chỉ là “Dự đoán từ tiếp theo”
Đúng vậy, mọi thứ mà một LLM làm được đều quy về một nhiệm vụ duy nhất: nhìn vào một chuỗi từ (prompt) và cố gắng dự đoán xem từ tiếp theo nên là gì. Nghe có vẻ đơn giản, nhưng chính sự lặp đi lặp lại của quá trình này đã tạo ra những đoạn văn bản dài, phức tạp và mạch lạc.
Hãy cùng xem xét một ví dụ kinh điển: Nếu bạn gõ “Mary had a little…”, một người có lẽ sẽ tự động nghĩ đến từ “lamb” (bài hát thiếu nhi nổi tiếng “Mary had a little lamb”). LLM cũng hoạt động tương tự. Khi nhận được cụm từ “Mary had a little”, nó sẽ duyệt qua kho kiến thức khổng lồ của mình, nhận diện mẫu (pattern) từ bài đồng dao quen thuộc và “đặt cược” rằng từ tiếp theo có xác suất cao nhất là “lamb”. Sau đó, nó sẽ lấy cả cụm “Mary had a little lamb”, thêm vào đầu vào ban đầu và tiếp tục dự đoán từ kế tiếp (“fleece”) và cứ thế… cho đến khi câu chuyện kết thúc một cách hợp lý.
Một ví dụ khác: khi bạn nhập “Roses are red”, một LLM có thể ngay lập tức trả lời “Violets are blue”. Nó không “hiểu” tình yêu hay thơ ca, mà chỉ đơn giản là đã được huấn luyện trên hàng triệu văn bản chứa cụm từ này và học được rằng sau “Roses are red” thường là “Violets are blue”.
Quá trình này cứ diễn ra từ từ, từng từ một, cho đến khi mô hình nhận thấy câu trả lời đã đủ đầy và “dấu hiệu kết thúc” xuất hiện. Đây chính là bản chất của việc tạo văn bản của AI. Nó không phải là một cỗ máy thông minh một cách thần kỳ, mà là một cỗ máy học được cách “bắt chước” và tái tạo lại các mẫu (patterns) ngôn ngữ của con người một cách tinh vi.