Các mẫu chip Intel từ Gaudi 3, Xeon Granite Rapids đến Core Ultra đều đã sẵn sàng cho Llama 3

Ngay sau khi Meta giới thiệu model Llama 3, gần như ngay lập tức Intel cũng công bố về hiệu suất của các con chip của họ khi sử dụng với model AI mới này của Meta. Họ cung cấp chi tiết về điểm chuẩn của các mẫu chip khi kiểm thử với Llama 3. Với mục tiêu “AI Everywhere”, Intel không thể chậm chân trong việc tối ưu hóa các mẫu chip hiện có của mình với các model AI mới nhất. Các mẫu vi xử lý từ Gaudi 2 và Gaudi 3, Xeon Scalable Granite Rapids cho đến các mẫu Intel Core Ultra cho người dùng phổ thông và dòng GPU Arc đều đã sẵn sàng cho Llama 3.
Các mẫu Gaudi 2 đã được thử nghiệm trước đây với Llama 2 từ 7 tỷ tham số, 13 tỷ tham số và 70 tỷ tham số. Bây giờ, Gaudi 2 tiếp tục được tối ưu hóa với Llama 3. Bên cạnh đó, mẫu Gaudi 3 mới cũng vừa được giới thiệu, và kết quả thể hiện ở bảng benchmark, so sánh giữa hai model Llama 3 inference và Llama 3 đã fine-tune, mỗi model sẽ có 2 tham số khác nhau. Intel cũng thử nghiệm với các mẫu Intel Xeon 6 (Granite Rapids) là thế hệ mới nhất và Intel Xeon Scalable thế hệ 4 (Shappire Rapids).
Hiệu suất suy luận của Meta Llama 3 8B trên phiên bản AWS m7i.metal-48x được dựa trên vi xử lý Intel Xeon Scalable Shappire Rapids.
Trong việc thử nghiệm hiệu suất của Llama 3 trên thế hệ mới nhất của Intel Xeon, được giới thiệu tại sự kiện Intel Vision 2024 là Granite Rapids, cho thấy rằng độ trễ suy luận của Llama 3 8B đã cải thiện gấp đôi so với các bộ xử lý Intel Xeon thế hệ 4. Đối với các model lớn hơn như Llama 3 70B, độ trễ suy luận đều dưới 100ms cho mỗi token, trong 1 máy chủ với 2 socket. Cần lưu ý rằng tại sự kiện Intel Vision 2024, Intel đã thay đổi tên gọi của dòng sản phẩm từ Intel Xeon Scalable thành Intel Xeon. Granite Rapids là Intel Xeon 6 với các nhân P sẽ ra mắt vào nửa cuối năm nay, trong khi các mẫu Intel Xeon 6 với các nhân E (Sierra Forest) sẽ được ra mắt trong quý 2 năm nay.
Đối với các mẫu vi xử lý dành cho người dùng cuối như Intel Core Ultra và GPU Intel Arc, Intel đã thử nghiệm hiệu suất của iGPU trong dòng Core Ultra H series và dGPU Intel Arc A770 khi sử dụng model Llama 3 8B Instruct INT4. Kết quả cho thấy độ trễ tổng thể thường dưới 20ms. Đặc biệt, iGPU 8 nhân Xe tích hợp trong Intel Core Ultra đạt được thời gian đáp ứng nhanh hơn tốc độ đọc bình thường của con người, nhờ vào bộ tăng tốc AI DP4a và băng thông bộ nhớ lên đến 120GB/s. Intel cam kết sẽ tiếp tục tối ưu hiệu suất và hiệu quả năng lượng cho việc sử dụng Llama 3 trên các thế hệ vi xử lý tiếp theo.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *