Frontier của phòng thí nghiệm quốc gia Oak Ridge là siêu máy tính exascale đầu tiên trên thế giới dùng phần cứng toàn bộ của AMD. Bao gồm các CPU EPYC Trento và GPU gia tốc Instinct MI250X. Hệ thống gồm nhiều node tính toán kết nối với nhau bằng giải pháp liên kết nối Slingshot của HPE.
Tuy nhiên, chiếc siêu máy tính này đang gặp vấn đề về vận hành khi phát sinh nhiều lỗi phần cứng cứ mỗi vài giờ hoạt động. Hiệu năng cũng đạt dưới mức thiết kế, khoảng 1 ExaFLOPS.
Frontier là hệ thống siêu máy tính công nghiệp đầu tiên được thiết kế để có thể mang lại hiệu năng tính toán đạt hàng ExaFLOPS, cụ thể là 1.685 FP64 ExaFLOPS. Nó được xây dựng dựa trên kiến trúc siêu máy tính Cray-X của Cray - công ty hiện đã được HP Enterprise mua lại.
Các node tính toán sẽ được kết nối với nhau qua HPE Slingshot. Mỗi node tính toán sử dụng CPU EPYC Trento - phiên bản tối ưu về xung nhịp và điện năng tiêu thụ của EPYC Milan dùng kiến trúc Zen 3 với 64 nhân, 128 luồng. Mỗi CPU sẽ đi với 512 GB bộ nhớ DDR4.
Bên cạnh CPU EPYC Trento, mỗi node tính toán còn có 2 GCD, mỗi cụm chứa 2 GPU gia tốc là Instinct MI250X dùng kiến trúc CDNA2. Mỗi GPU MI250X cho hiệu năng đỉnh FP64 ở 52 TFLOPS . Hệ thống bộ nhớ được trang bị cho mỗi GCD là 128 GB HBM2e, mỗi GPU truy xuất 64 GB với băng thông 3.2 TB/s.
Các GCD kết nối với nhau qua cầu Infinity Fabric với băng thông 2 chiều 200 GB/s.
Trong một cuộc phỏng vấn với InsideHPC, Justin Whitt - giám đốc chương trình OLCF tại viện nghiên cứu Oak Ridge cho biết nhóm của ông vẫn đang giải quyết các vấn đề về phần cứng nhằm hiểu được chúng phát sinh từ đâu. Ông cũng chia sẻ thời gian trung bình phát sinh sự cố trên hệ thống là hàng giờ chứ không phải là ngày.
Trước đó đã có nhiều tin đồn xoay quanh lỗi phần cứng trên Frontier. Một số cho rằng hệ thống gặp lỗi với Slingshot của HPE trong khi số khác cho rằng các GPU Instinct MI250X của AMD không ổn định. Phiên bản X là phiên bản có số nhân Stream nhiều hơn và xung nhịp cao hơn của MI250 và cũng chỉ được AMD cung cấp cho một số khách hàng nhất định.
Dù vậy, Justin Whitt không khẳng định lỗi phát sinh từ thành phần nào. Whitt cho rằng vào thời điểm hiện tại thì phần cứng của AMD không có gì phải bận tâm, chỉ nói hệ thống phát sinh rất nhiều lỗi.
Bộ năng lượng Hoa Kỳ (DOE) - đơn vị đầu tư đến 600 triệu đô cho Frontier hiện đang phối hợp với phòng thí nghiệm Oak Ridge để khắc phục các vấn đề của Frontier nhằm đưa siêu máy tính này vào hoạt động hoàn toàn vào đầu năm 2023.
Frontier sẽ được sử dụng cho nhiều hoạt động khác nhau từ mô hình hóa các phân tử dược phẩm tiên tiến với hàng nghìn nguyên tử, mô phỏng máy tính lượng tử, phản ứng hạt nhân ...