Bạn có quan tâm đến chúng không ƯU ĐÃI? Tiết kiệm với phiếu giảm giá của chúng tôi trên WHATSAPP o TELEGRAM!

Mamba là gì, kiến trúc nhằm mục đích vượt qua hoàn toàn GPT. Kỷ nguyên mới của AI?

Gianluca Cobucci

Tháng Một 18 2024

con rắn kỹ thuật số tượng trưng cho kiến trúc Mamba trong trí tuệ nhân tạo

Hôm nay tôi muốn đi sâu hơn một chút về mặt kỹ thuật. Chúng ta nói về trí tuệ nhân tạo hàng ngày nhưng biết nó dựa trên cái gì và hoạt động như thế nào là điều đúng đắn. Về vấn đề này tôi muốn giới thiệu với bạn Mamba, một kiến trúc mới hứa hẹn sẽ thay đổi tôi mô hình ngôn ngữ như chúng ta biết ngày nay. Các tính năng của Mamba so với GPT là cực kỳ vượt trội cũng như những gì nó cho phép bạn làm.

Mamba là chân trời mới cho trí tuệ nhân tạo

Kiến trúc Transformer được giới thiệu vào năm 2016 thông qua bài báo “Chú ý là tất cả những gì bạn cần” của Google, thể hiện sự đột phá đối với các mô hình ngôn ngữ, cho phép chúng duy trì ngữ cảnh trong các tương tác. Tóm lại: kiến trúc Transformer là mô hình AI dùng để tạo ra các mô hình như GPT (Máy biến áp tiền chế tạo).

KIẾN TRÚC BIẾN ÁP HOẠT ĐỘNG NHƯ THẾ NÀO

Trung tâm của kiến trúc Transformer là cơ chế “attenzione“, cho phép mô hình tập trung vào các phần cụ thể của một văn bản trong khi tạo hoặc xử lý văn bản khác. Cơ chế này làm cho Transformers đặc biệt hiệu quả trong việc hiểu bối cảnh và các mối quan hệ phức tạp trong một văn bản. Trong thực tế, các mô hình dựa trên kiến trúc Transformer, như GPT, họ học cách tạo ra và hiểu ngôn ngữ qua hai giai đoạn những cái chính: đào tạo (đào tạo) và suy luận (tạo văn bản).
Trong đào tạo, mô hình được huấn luyện trên tập dữ liệu văn bản lớn để hiểu cấu trúc ngôn ngữ, mối quan hệ giữa các từ, ngữ cảnh, v.v. Trong giai đoạn sự suy luận, mô hình sử dụng những gì đã học để tạo văn bản mới, trả lời câu hỏi, dịch ngôn ngữ và các tác vụ xử lý ngôn ngữ khác.

Tuy nhiên, sự xuất hiện của Mamba có thể đánh dấu sự khởi đầu của một kỷ nguyên mới. Kiến trúc này hứa hẹn sẽ hiệu quả hơn, có khả năng vượt qua một số thách thức chính mà các mô hình hiện tại như GPT phải đối mặt. Cụ thể, ba khía cạnh chính khiến Mamba trở thành một kiến trúc đầy hứa hẹn:

giảm chi phí suy luận: Một khía cạnh quan trọng của Mamba là giảm đáng kể chi phí suy luận. Như tôi đã nói trước đây, suy luận là quá trình mà một mô hình AI, sau khi được đào tạo, áp dụng những gì nó đã học được vào dữ liệu mới, tạo ra văn bản hoặc hình ảnh. Trong các mô hình phức tạp như GPT-3 hoặc GPT-4, quá trình này có thể tốn kém về tài nguyên tính toán. Mamba hứa sẽ giảm những chi phí này tới năm lần so với các mô hình dựa trên Transformer, có thể có tác động đáng kể, đặc biệt đối với các ứng dụng yêu cầu tạo phản hồi nhanh hoặc làm việc với các bộ dữ liệu khổng lồ;
chi phí tính toán chú ý tuyến tính: Ưu điểm thứ hai của Mamba liên quan đến tính hiệu quả trong việc tính toán sự chú ý. Trong các mô hình máy biến áp, chi phí tăng lên có tiềm năng (chính xác là ở mức độ quyền lực, nó không phải là cách nói tu từ) khi độ dài của văn bản tăng lên. Điều này có nghĩa là văn bản càng dài thì càng cần nhiều tài nguyên để xử lý nó, hạn chế tính thực tiễn của mô hình trong một số ứng dụng. Mamba đề xuất một giải pháp chi phí tăng tuyến tính so với kích thước của cửa sổ chú ý, giúp việc xử lý các văn bản dài trở nên dễ quản lý hơn và ít khó khăn hơn về mặt tính toán;
đầu vào cực kỳ lớn hơn: Mamba có thể xử lý cửa sổ đầu vào tối đa lên tới 1 triệu tokenn, còn nhiều hơn những gì có thể làm được với kiến trúc Transformer. Điều này có nghĩa là về mặt lý thuyết, Mamba có thể phân tích và hiểu các văn bản cực kỳ dài, chẳng hạn như toàn bộ cuốn sách, duy trì sự mạch lạc và chi tiết trong ngữ cảnh. Ví dụ, anh ta có thể phân tích toàn bộ cuốn tiểu thuyết trong khi vẫn hiểu rõ về các nhân vật, cốt truyện và chủ đề từ đầu đến cuối.

Bất chấp lời hứa của Mamba, giấy tăng nghi ngờ về khả năng mở rộng của nó, đặc biệt khi so sánh với các model đồ sộ như GPT-4, có 175 tỷ thông số. Khả năng mở rộng, nói một cách rất đơn giản, đề cập đến khả năng của hệ thống trong việc xử lý sự gia tăng công việc hoặc tăng quy mô mà không làm giảm hiệu quả. Hãy tưởng tượng một nhà hàng nhỏ hoạt động tốt với ít khách hàng. Nếu nhà hàng trở nên nổi tiếng và bắt đầu có nhiều khách hàng hơn, nó sẽ có thể đáp ứng được sự gia tăng này mà không ảnh hưởng đến chất lượng dịch vụ hoặc đồ ăn. Nếu thành công thì nó có khả năng mở rộng quy mô.

Mamba, ở trạng thái hiện tại, đã được thử nghiệm chỉ với 3 tỷ thông số. Vì vậy, vẫn chưa chắc chắn liệu hiệu suất và hiệu quả của nó có thể được duy trì hoặc cải thiện khi mở rộng quy mô lớn hơn hay không.