Điều gì xảy ra khi bạn gọi bất kỳ API nào của LLM?

36 phút trước 2

Nội dung bài viết

Dòng chảy cấp cao
Suy luận mô hình
Sau mô hình

Khi bạn gọi bất kỳ API LLM nào, lời nhắc văn bản của bạn sẽ được gửi qua internet đến một máy chủ từ xa, nơi nó được xử lý bởi một mô hình ngôn ngữ quy mô lớn và phản hồi có cấu trúc được trả về, thường là ở dạng JSON.

Dòng chảy cấp cao

Yêu cầu đi đến cổng API – Yêu cầu HTTP của bạn chạm vào biên của nhà cung cấp (ví dụ: ), trong đó TLS bị chấm dứt, khóa API của bạn được xác thực và giới hạn tốc độ được kiểm tra.https://api.openai.com/...
Định tuyến và cân bằng tải – Cổng định tuyến yêu cầu đến một cụm GPU phù hợp, thường là trung tâm dữ liệu gần nhất với dung lượng khả dụng và có thể xếp hàng dưới tải nặng.
Tokenization – Văn bản đầu vào của bạn được chia thành các mã thông báo (biểu diễn số) bằng thuật toán như BPE hoặc SentencePiece; Hệ thống cũng kiểm tra xem bạn có vượt quá giới hạn khung thời gian ngữ cảnh hoặc tốc độ ở đây hay không.

Suy luận mô hình

Lựa chọn mô hình và phân lô – Một bộ định tuyến mô hình chọn đúng cụm (mô hình nhỏ so với mô hình lớn, nhúng so với trò chuyện) và thường gửi hàng loạt yêu cầu của bạn với những người khác để giữ cho GPU bận rộn.
Giai đoạn điền trước – Tất cả các mã thông báo đầu vào được xử lý trong một lần; tính toán chú ý xây dựng bộ nhớ đệm khóa-giá trị (KV) trong bộ nhớ GPU, đó là lý do tại sao lời nhắc dài làm tăng độ trễ và chi phí.
Giai đoạn giải mã (tạo) – Mã thông báo được tạo từng cái một bằng cách sử dụng ngữ cảnh được lưu trong bộ nhớ cache; Lấy mẫu (nhiệt độ, ) được áp dụng để chọn từng mã thông báo tiếp theo và nếu bật tính năng phát trực tuyến, đầu ra sẽ được gửi dần dần.top_p

Sau mô hình

Xử lý hậu kỳ – ID mã thông báo đầu ra được chuyển đổi trở lại văn bản, bộ lọc an toàn có thể xem xét nội dung và mọi trình tự hoặc ràng buộc khác đều được thực thi.stop
Thanh toán và phản hồi – Hệ thống ghi lại số lượng mã thông báo đầu vào và đầu ra, áp dụng giá và gửi phản hồi JSON trở lại khách hàng của bạn với siêu dữ liệu sử dụng và văn bản được tạo.

Nói tóm lại, từ quan điểm mã của bạn, đó là một lệnh gọi HTTP đơn giản, nhưng đằng sau hậu trường, nó kích hoạt một quy trình phức tạp gồm mạng, mã hóa, suy luận GPU phân tán và các lớp thanh toán an toàn mọi lúc.

Bạn nhập một câu hỏi vào ChatGPT.

2 giây sau, bạn nhận được câu trả lời.

Bạn có bao giờ tự hỏi điều gì xảy ra trong 2 giây đó không?

Câu hỏi của bạn không chỉ “được gửi đến AI rồi quay lại”.

Nó di chuyển qua 𝟏𝟒 lớp 𝐢𝐧𝐟𝐫𝐚𝐬𝐭𝐫𝐮𝐜𝐭𝐮𝐫𝐞 𝐥𝐚𝐲𝐞𝐫𝐬 trong khoảng ~400 mili giây.

Đây là hành trình mà câu hỏi của bạn trải qua ↓

𝟏. 1. Kiểm tra máy chủ (~5ms)
Yêu cầu của bạn được kiểm tra xem có khóa API hợp lệ, giới hạn tốc độ và định dạng phù hợp hay không.

Hãy tưởng tượng nó như người gác cửa.

2. Bộ cân bằng tải (~2ms)
Hàng triệu người đang đặt câu hỏi cùng một lúc.

Bộ cân bằng tải sẽ gửi yêu cầu của bạn đến máy chủ tốt nhất hiện có — giống như kiểm soát không lưu dành cho AI.

3. Thời gian thực hiện (~3ms)
Trí tuệ nhân tạo không đọc tiếng Anh. Từ ngữ của bạn được chuyển đổi thành số.

“Hello world” trở thành [15339, 1917].

Càng nhiều từ = càng nhiều số = chi phí càng cao.

4. Chọn mô hình (~1ms)
Một bộ định tuyến ẩn sẽ quyết định mô hình trí tuệ nhân tạo và phần cứng nào nên xử lý yêu cầu của bạn.

Câu hỏi đơn giản? Mô hình nhỏ. Phân tích phức tạp? Mô hình mạnh.

5. 6. Thời gian xử lý AI (~300-800ms)
Đây là nơi chiếm 95% thời gian chờ đợi của bạn.

AI đọc toàn bộ lời nhắc của bạn cùng một lúc, sau đó tạo ra phản hồi từng từ một.

Quá trình này chạy trên chip GPU có chi phí vận hành từ 2-3 đô la/giờ.

6. Bộ lọc an toàn (~5ms)
Trước khi bạn nhìn thấy bất cứ điều gì, phản hồi sẽ đi qua một bộ lọc an toàn.

Mọi nhà cung cấp AI lớn đều có bộ lọc này. Nó có thể chặn phản hồi ngay cả sau khi đã được tạo hoàn chỉnh.

7. 𝐃𝐞𝐥𝐢𝐯𝐞𝐫𝐲 & 𝐁𝐢𝐥𝐥𝐢𝐧𝐠
Câu trả lời sẽ được gửi lại cho bạn.

Đồng hồ tính cước hoạt động liên tục — bạn phải trả tiền cho cả câu hỏi VÀ câu trả lời.

Thông tin thú vị: câu trả lời có giá gấp 3-5 lần câu hỏi.

𝟖. 𝐋𝐨𝐠𝐠𝐢𝐧𝐠
Mọi cuộc gọi đều được ghi lại — tốc độ, chi phí, kiểu máy, cảnh báo an toàn.

Dữ liệu này được đưa vào bảng điều khiển giúp hệ thống hoạt động.

Điều mà hầu hết mọi người không nhận ra là:

Việc “dịch thuật” AI chiếm 95% công sức của bạn.

Tất cả các bước bảo mật, định tuyến, dịch thuật, kiểm tra an toàn và lập hóa đơn kết hợp lại chỉ mất khoảng 16 mili giây.

Bộ xử lý đồ họa (GPU) đắt tiền thực hiện các phép toán? Đó mới là điểm nghẽn.

Đây là cách hoạt động đằng sau hậu trường tại OpenAI, Anthropic, Google, Mistral, Cohere, AWS và Azure.

Bạn có thể làm gì?

→ Nếu bạn là người hướng đến sự thành công: Đây là nơi ngân sách AI của bạn được đầu tư. Lời nhắc ngắn gọn hơn và phản hồi ngắn gọn hơn = tiết kiệm chi phí thực sự.

→ Nếu bạn là người thiết kế hệ thống: Hiểu rõ các lớp này giúp bạn thiết kế các hệ thống nhanh hơn, rẻ hơn và bền vững hơn.

→ Nếu bạn là người thiết kế hệ thống: Hiểu rõ các lớp này giúp bạn thiết kế các hệ thống nhanh hơn, rẻ hơn và bền vững hơn. → Nếu bạn là người dùng máy tính: Giờ đây bạn đã biết chính xác những mili giây đó biến mất ở đâu khi cuộc gọi API của bạn có vẻ chậm.

→ Nếu bạn là người dùng AI: Giờ đây bạn hiểu biết về cơ sở hạ tầng AI hơn 99% người dùng các công cụ này hàng ngày.

Lần tới khi ChatGPT phản hồi chậm, bạn sẽ biết chính xác điều gì đang xảy ra đằng sau bức màn.

Điều gì trong hành trình này khiến bạn ngạc nhiên nhất?

(3) Post | Feed | LinkedIn

(St.)

Điều gì xảy ra khi bạn gọi bất kỳ API nào của LLM?

Dòng chảy cấp cao

Suy luận mô hình

Sau mô hình

NGUYỄN QUANG HƯNG BLOG

Ý kiến bạn đọc (0)

Để lại một bình luận Hủy

Kết nối với chúng tôi

Chủ đề