
Infxxx1 Edge 추론 가속기는 실시간으로 작은 배치 크기로 작동하는 심층 학습 모델에 대한 높은 대역폭 지원을 요구하는 실시간 MPIxel Vision 워크로드를 처리하도록 설계되었습니다. 일반적인 작업 부하에는 많은 기능 맵과 여러 운영자 유형이있는 딥 네트워크가 있습니다. 회사를 설명합니다. 또한 INT8, INT16 및 BF16을 포함하여 혼합 정밀도를 사용해야하는 모델 정확도 목표를 가질 수도 있습니다. 가속기는 레이어 간의 혼합을 허용하고 이러한 작업 부하에서 일반적으로 필요한 낮은 대기 시간 배치 크기 (B = 1 추론 처리)를 위해 설계되었습니다.
가속기는 x86 및 ARM 아키텍처와 OS 선택을 지원합니다. 카메라, IR, 초음파 및 RF 센서 입력 유형 및 이더넷, USB 및 Wi-Fi Comms 표준을 지원합니다.
X1 Dynamic Tensor Processor Array는 기존 및 미래의 AI / ML 모델을 지원하도록 설계되었으며 ASIC의 속도와 효율성을 재구성 할 수있는 제어 로직 기술을 재구성 할 수있는 재구성 가능한 제어 로직 기술을 사용하여 필드를 통해 새로운 추론 모델 기술의 채택 및 배포를 가능하게함으로써 업데이트. 가속기 아키텍처는 고해상도 카메라를 포함하여 여러 데이터 유형을 처리 할 수 있도록 지원합니다.
프로세서 어레이의 MAC 단위와 12MByte의 온칩 SRAM 외에도 X1 아키텍처는 모델 중량, 구성 및 내부 활성화 저장을 위해 외부 LPDDR4 DRAM에 대한 연결이 포함됩니다. 호스트 프로세서에 연결하기위한 Gen3 / 4 PCIe도 있습니다.
이 회사는 또한 모델 컴파일러 및 런타임 소프트웨어가있는 Inference Inference 소프트웨어 개발 키트를 제공합니다. 모델 컴파일러는 TensorFlow Lite 또는 Torschscript로 표현 된 모델을 변환하고 X1 가속기에서 직접 작동하도록 컴파일합니다. Infx 런타임은 모델의 실행을 제어하고 x1은 데이터 증기를 처리하여 추론 결과를 생성합니다.