도메인 특유 메모리

March 11, 2021

도메인 특유 메모리

도메인 특유 컴퓨팅은 크게 유행하고 있을 수 있지만, 그러나 그것이 진짜 문제를 회피하고 있습니다.

더 큰 우려는 프로세서 성능을 질식시키고, 더 전력을 소비하고, 대부분의 칩 면적을 차지한 메모리입니다. 메모리는 기존 소프트웨어에 의해 선호된 강성 구조에서 떨어져 나갈 필요가 있습니다. 알고리즘과 기억력이 함께 설계될 때, 성능의 개선은 중요하고 처리가 최적화될 수 있습니다.

도메인 특유 처리는 존 헤네시와 데이비드 패터슨에 의해, 2018년 튜링 강의, 컴퓨터 구조를 위한 새로운 황금 시대에 의해 대중화되었습니다. 그러나 프로세서는 수십년간 기억에 의해 강요되었습니다. 기억과 기억장치 계층에 관한 레씽크 없는 변하는 처리는 저 시스템의 어떤 부분이 향상될 때 시스템을 위해 가능한 스피드-업 사이의 수학적 관계를 제공하는 암달의 법칙을 무시합니다. 근본적으로 전체적으로 시스템을 보는 것보다 오히려 시스템만을 1개 집중하면 당신이 점감 리턴을 얻는다는 말이 있습니다.

그래서 왜 병목에 집중하지 않습니까?? "도메인 특유 기억이 단지 새로운 용어이지만, 그러나 건축들이 오랫동안 이런 종류의 최적화를 했다"고 시놉시스에 있는 상품 판매의 관리자인 프라사드 사그구르티가 말합니다. "그리고 그들이 전혀 그렇지 않으면, 대부분의 사람들이 그것을 했기 때문에 그들은 속임수를 놓치고 있습니다."

다른 사람은 동의합니다. "비디오 메모리를 기억합니다 - 짜맞춘 전환 레지스터와 DRAM?동맥 IP에 있는 동료와 시스템 구조 설계가인 마이클 프랭크에게 물어보세요. 아마도 GDDR [1-5] 또는 특별한 캐시 태그 메모리 또는 연관 메모리는 TTL의 그 날로 다시 올 것입니까? 그들의 기능성이 너무 특별했기 때문에 많은 이것들은 정말로 살아남지 않았습니다. 그들은 독특한 장치를 목표로 삼았습니다. 당신은 큰 충분한 도메인을 필요로 하고 많은 양과 대규모 제작의 혜택을 가지고 있는 오늘의 DRAM의 저비용에 맞서 싸우고 있습니다."

때때로 그것은 그것 보다 더 깊게 됩니다. "당신이 ROM 안으로 어떤 것을 고정화시킬지도 모른다"고 시놉시스의 사그구르티가 말합니다. 우리가 보고 있는 것은 오늘 기억을 미세 조정하는 더 많은 사람들입니다. 예를 들면, 푸리에로 변환, 또는 z변환, 사람들은 당신이 계수를 확실한 명령에 저장할 수 있다고 이와 같은 방식으로 코드에게 쓸 것입니다. 행렬 곱셈을 하고 있을 때, 당신은 밖에 그것을 읽는 것 더 빨리 있도록 당신이 계수를 확실한 명령에 저장할 수 있습니다. 당신은 그 대신에, 당신이 다중 데이터 경로를 통하여 것을 읽을 수 있도록 3 또는 네 다른 기억에서 그것을 두면서, 데이터를 하나 메모리에 저장하지 않을지도 모릅니다. 이러한 그런 종류는 더욱 최근에 일어났습니다."

변화는 단단합니다. "도전이 과거에, 사람들이 컴퓨팅 시스템에 대해 생각하기 위한 좋은 추상 모델을 가지고 있었다는 것이라고 " 램버스에 있는 동료와 두드러진 발명가인 스티븐 구애가 말합니다. "그들은 결코 정말로 메모리에 대해 생각하여야 하지 않았습니다. 그것은 무료로 같이 갔고 당신이 메모리에 대한 언급을 했을 때, 그것은 단지 발생했도록 프로그래밍 모델이 그것을 만들었습니다. 당신은 결코 당신이 하고 있었던 것에 관해 명백하여야 하지 않았습니다."

진전은 일반 메모리 성능에서 이루어지고 있습니다. "오늘의 메모리 컨트롤러들과 진보적 인터페이스 표준이 당신이 진보적 실리콘 기술로부터 추출할 수 있는 것 극적으로 향상시켰다"고 아르테리스의 프랭크가 말합니다. "이것은 딥 큐와 진보적 스케쥴러들을 가능하게 했습니다. 고대역 기억 (HBM)와 우리가 10년 전 단지 달성하기에 불가능하여서 생각한 적층 다이 지원 대역폭과 같은 진보적 메모리 기술. 아직 그것은 값이 싸게 오지 않습니다. 아마 Sub-10 nm 기술이 또한 큰 저장소를 가능하게 해서 우리는 이 가난한 사람의 도메인 특유 메모리를 부를 수 있습니다."

그러나 이것들은 작은 점진적 변화의 사례입니다. "어느 것이 주로 계산하는지 아키텍팅 메모리 서브시스템이 반대로보다 오히려, 데이터를 따르고 건축가들이 익숙해지는 많은 교훈에 관한 중요한 레씽크를 요구한다"고 무기의 research and development 그룹을 위한 고위 수석연구원인 매트 호스넬이 말합니다. 계산 유닛과 데이터 항목 사이에 동시발생과 상대 거리 이라는 약간의 개념을 요약하는 확장 형에 오늘의 데이터 위의 작전의 전형적 목록으로부터, 프로그램작성 추상화를 강화하기 위한 기회가 있습니다. 그와 같은 추출은 알고리즘이 신속히 진화하고 있을 때 더 최적으로 필요한 변환이 도메인 특정한 메모리를 목표로 삼을 수 있게 할 수 있었습니다."

운전석의 데이터 센터
데이터 센터는 오늘 많은 기술 동향을 위한 운전입니다. "컴퓨터를 위한 빨리 성장시키는 응용 중 하나가 응용소프트웨어가 더 낮은 잠재에 더 기억장치 용량, 대역폭을 간청하는 데이터 센터에 있다"고 라비 투머마루쿠디, 모비베일을 위한 CEO가 말합니다. 시스템 구조 설계가들인 (CXL이) 쌓을 수 있는 최근의 산업 표준, 계산 특급 링크 "의 출현으로 메모리는 드드르누스 DIMMS와 CXL-기반을 둔 드드르누스 또는 더 새로운 영구 메모리에서 주 기억장치를 사이에 필요로 했습니다. 메모리의 이러한 층들의 잠재와 경제 특성은 다르고 그것이 그들의 요구에게 어울리기 위해 메모리와 섞고 일치하기 위해 설계자들에게 옵션을 줍니다."

그것은 유산 기억 장치 구조의 지속입니다. "많은 OEM과 시스템 하우스가 그들의 특별한 작업량에 맞게 실리콘을 특별주문하기 위해 그들의 SOC을 설계하고 있다"고 시놉시스에 있는 중요 적용 엔지니어인 팀 코겔이 말합니다. 가장 큰 성능과 전력 이득을 위한 기회는 지지하는 연결된 구조와 함께 기억장치 계층의 전문화입니다.

전원을 고려하세요. "현재 아키텍처에서, 외부 메모리와 칩 내장 캐시와 얀산 요소로 마침내 그 자체 (그림 1을 보시오) 사이에 체중과 활성화를 이동시키면서, AI 작업량을 위한 에너지 중 90%가 데이터 이동에 의해 소비된다"고 아런 이옌저, CEO가 말하고의 AI를 놓아줍니다. "단지 결론 가속에 대한 필요에 따라 집중하고 전력 효율을 극대화함으로써 우리가 전례가 없는 컴퓨터 조작의 성능을 제공할 수 있습니다."

기억력 최적화는 디자인의 모든 측면을 접촉하는 시스템 수준 문제입니다 - 하드웨어와 소프트웨어와 도구. "메모리를 최적화하기 위한 전략이 다양하고, 응용 분야에 의존한다"고 코겔이 덧붙입니다. 최고의 전략은 전적으로 오프 칩 기억장치 접근을 회피하는 것입니다. 도메인 특유 건축을 위해, 이것은 또한 저장소 또는 응용 운영된 메모리의 모양으로, 이용 가능한 내부 메모리를 증가시킴으로써 일반적으로 달성될 수 있습니다. 특히 깊은 학습 가속기의 지역에, 이용 가능한 내부 메모리는 또한 어떻게 신경 망 응용이 타겟 하드웨어 위에 편집되는지 충돌하는 중대한 설계 파라미터입니다 - 예를 들면, 합성 변환 연산자의 타일."

많은 설계는 이것 보다 그 이상으로 하는 것을 기대하고 있습니다. "도메인 특유 메모리 개념이 공간 계산 도메인에서 탐구되고 있다"고 팔의 호스넬이 말합니다. 한 예로, DSP는 종종 직접적으로 소프트웨어에서 관리되는 분산 메모리 구조의 기업 연합을 제공하는 경향이 있으며, 그것이 대역폭 요구사항을 위한 더 알맞은 것과 전통적 공유 메모리 시스템 보다 전문적인 응용 프로그램의 액세스 패턴일 수 있습니다. 고정 기능 ASIC과 효율 차이를 좁히기 위해, 이러한 프로세서는 종종 N-버퍼링, 피포스, 라인 버퍼, 압축, (과 같이 기타 등등) 특별한 액세스 패턴을 위한 직접적인 지원을 제공함으로써 기억 전문화의 약간의 형식을 제공합니다. 이러한 시스템 이내에 통합의 결정적인 양상과 그들을 설계하는 것의 도전이 동시에 동시발생을 극대화하 동안 통신과 동기화 오버헤드를 최소화할 수 있는 자료 접근을 위한 옳은 단위를 결정하고 있습니다. 소프트웨어 복잡도를 추가하는 프로그래밍, 밀착, 동기화와 번역을 포함하여 다른 문제는 지속합니다. 그러나, 가능한 경로 포워드는 지나서 더 명백한 응용의 데이터 흐름을 만든 영역 특정 언어 (DSLs)에 의존하고, 컴파일러들이 전문화된 기억장치 접근 패턴을 확인할 수 있게 할 수 있고 더 효과적으로 하드웨어 위에 그들을 그리는 것입니다."

메모리 그들 자신을 더 자세히 살펴보는 것은 또한 지불합니다. 우리가 메모리에 " 관한 한 본다"고하이퍼 특화는 동향이라고 시놉시스 안에 있는 고위급 간부 제품 마케팅 관리자인 애난드 티루베가담은 말합니다. "이것은 다른 단부 응용을 위한 특별히 건립된 메모리를 의미합니다. 심지어 AI와 같은 특별한 단부 응용 이내에 교육에 대해서 말하자면 그와 같 또는 추론하거나, 서버에서 추론하거나, 먼 에지에서 추론합니다 메모리에 대한 다른 필요가 있습니다. 각각의 이러한 응용은 다른 요구조건을 가지고 있고 그것이 당신이 메모리를 특화하여야 한다는 것을 의미합니다. 이 특화는 당신은 더 이상 메모리를 상품 또는 상용 제품 간주할 수 없다는 것을 의미합니다. 당신은 특정 응용을 위해 그것을 구축하여야 합니다. 그것은 비밀스러운 소스가 실시되는 곳입니다."

많은 경우에 메모리와 내부연락은 팽팽하게 연결됩니다. "어떤 것은 애플리케이션 작업 부하를 위한 자료 접근 요건을 충족시키기 위해 결합하는 메모리와 인터커넥트 테크날러지에 관한 한 갑니다 - 예를 들면, 데이터 플로우 응용에서 위치를 이용하기 위한 국지 기억장치 또는 CNN 가속기의 특징 지도와 세련된 결합의 긴밀성과 깊은 캐시 계층구성을 버퍼링하기 위한 거대한 멀티 뱅크 / 멀티 포트 온칩 SRAM과 클러스터링 결합 작업의 다중 레벨은 데이타 센터 작업량의 미온적 작업 세트를 완화하기 위해 초안을 작성합니다."

잔돈은 큰 결과를 산출할 수 있습니다. "단지 애플이 M1으로 수행했다"고 프랭크가 말하는 작은 기적을 보세요. "그들은 지능적 캐싱 전략과 거대한 멀티 레벨 캐시 계층구성을 사용하여, 잘 다수 이질적 마스터들을 서빙하는 메모리 서브시스템을 설계하는 방법을 알아냈습니다."

종종 그 사례인 것처럼, 소프트웨어는 관성 앵커입니다. "무엇이 보통 발생하는지 장소에 알고리즘이 있다고 있고 우리가 어떻게든 그것을 최적화하고 기억을 최적화하여서, 알고리즘이 아주 잘 구현된다"고 사그구르티가 말합니다. 반면 "에, 우리는 메모리의 이러한 다른 유형을 갖. 메모리의 이러한 새로운 종류를 이용하기 위해 당신의 알고리즘을 바꾸시겠습니까? 과거에 원격 통신 접근 방식을 사용하는 것 IP 주소를 찾아보기 위해 대부분 네트워킹 도메인 구성이었습니다. 더 최근에 트레이닝 엔진 사용 원격 통신 접근 방식에 시작하고 그것 것은 그와 같습니다 다른 접근법. 이것은 이용 가능한 메모리의 종류를 기반으로 소프트웨어 또는 변화에 대한 펌웨어를 필요로 합니다. 그러나 대부분의 시간, 소프트웨어는 고정된 채로 있고 메모리가 결과로서 생기는 실행을 더 잘 하기 위해 변합니다."

처리량 인식
많은 시간과 돈은 이러한 일 인공지능에 투자 되는 중입니다. 주문형 칩은 처리량에 의해 강요되고 그것이 메모리에 주의를 환기시키고 연결됩니다.

"역사적으로, 기억력과 연결된 구조가 지붕선 성능 모델과 같이 정적 스프레드시트 또는 단순한 분석 모델들을 기반으로 설계되었다"고 코겔이 말합니다. 최신 기술의 응용 "을 위해, 이것은 꽤 복잡하게 됩니다. 예를 들면, CNN에서 모든 레이어를 위한 메모리 요구 사항을 예상하는 것 타일과 레이어 통합과 같은 컴파일러 최적화의 고찰을 요구합니다. 이러한 정적 방법은 다양한 IP 서브시스템과 동적 응용 시나리오와 SoC-수준 작업량에 대한 예측과 최적화를 위해 무분별하게 복잡하고 부정확하게 됩니다. 다른 한편으로는, 하드웨어 에뮬레이션 또는 시제품 체계의 위에 응용프로그램을 구동하는 것 어떠한 과감한 변화 또는 메모리 설계의 주요 최적화를 하기에 너무 개발 과정에서 늦습니다."

그것은 예정된 작업량에 대한 초점을 잡습니다. 효율적 메모리 서브시스템의 키는 당신의 작업량에 대한 " 지식이라고 프랭크가 말합니다. 어떻게 그것이 행동할 것으로 "이해할 때, 아마 심지어 그것을 더 적합하게 하는 방법으로 그것을 형성하면서 당신의 기억장치 계층의 제한과 함께, 이것은 건축이 도전받는 곳입니다. 도메인 특별한 가속기는 조정된 기억장치 시스템을 요구합니다 - 그리고 '임피던스가' 대중과 일치하는 변형 엔진을 만드는 미술이 생산했습니다, 조직된 페이지, 폭주하는 접근 DRAM과 엔진의 액세스 패턴은 시스템 행태, 모델링 툴과 많은 작업량으로의 통찰력이 놀도록 요구합니다. 때때로 그것은 작업량이 전반적인 시스템을 개선할 수 있기 위해 데이터를 처리하는 방식을 변경하는 것 잡습니다. 좋은 예는 '직접적' 연기에서 그포스의 타일 기반 처리까지 변화였습니다."

그것 모두가 모델링과 시뮬레이션에 내려옵니다. "우리는 연결되고 기억 장치 구조"의 정확한 처리 수준 모델들과 함께, 애플리케이션 작업 부하를 모델링하기 위한 사실상 포로토 타이핑 툴의 사용을 제안한다고 코겔이 말합니다. "이 양적 '건축 처음으로' 접근법은 믿을 만한 실현 규약의 결과를 초래한 이른 거래 분석을 허락합니다. 추가적 모델링과 시뮬레이션 노력의 비용으로, 혜택은 없는 성능의 줄어든 위험이고 전력 타겟 또는 신중을 기하 단지 하드웨어를 오버르디자인링 할인 가격입니다. moore의 법칙에서 점감 리턴의 시대에, 기회는 더 최적화되고 차별화된 제품과 함께 나오는 것입니다."

그것은 알고리즘 변경의 영향이 또한 보일 수 있게 허락합니다. "되돌아가서 알고리즘을 재도안하기 위한 필요가 있다"고 티루베가담이 말합니다. "그들은 전통적 유산 기억 장치 구조를 위해 재디자인할 수 있거나 새로운 아키텍처, 새로운 기억 스타일, 새로운 기억 풍미를 위해 재도안될 수 있습니다. 성능 조정, 비용 크기 조정을 위한 이 상수 푸시와 또한 다른 응용 프로그램을 위한 거래를 균형화시킬 수 있는 것 있습니다. 이것은 본질적으로 당신은 마람스와 강유전성 램의 지속적인 발전을 보고 있다는 이유입니다. 전혀 모든 변수 면, 그들은 적어도 두개의 변수를 위한 스위트 스팟으로 찾으려 합니다. 기억 장치 구조와 함께 레디자인링 알고리즘에 대한 필요는 확실히 중요하게 되고 있습니다."

균형은 필요합니다. "당신이 포함된 연산 세기와 업태의 개념에 대해 생각할 필요가 있다"고 프랭크가 말합니다. "어떤 알고리즘이 탐욕스러운 대역폭 요구사항을 가지고 있는 반면에, 다른 사람은 단지 상대적으로 작은 데이터량을 이동시키지만, 그것에서 수천의 작업을 수행합니다. 메모리 내장 활동은 데이터 대역폭과 관련하여 작게 교육 대역폭인 SIMD-타입 처리에 대해 잘 작용할 수 있고 여러 가지 요소가 똑같은 처방을 사용하여 처리됩니다. 그러나 자료 스트림 또는 불규칙한 데이타플로우, 도메인 특정한 메모리 수축의 이익에서 연속하는 종속성이 거기 만큼 곧 있습니다."

맞춘 메모리
아키텍처 변경이 큰 결과를 낼 수 있는 동안, 기억을 최적화하는 것 또한 이익을 제공할 수 있습니다. "오늘의 가속기의 전력과 지역의 큰 비율이 메모리에 사용된다"고 호스넬이 말합니다. 그래서 새로운 메모리 기술에 의해 이루어진 어떠한 잠재 / 밀도 / 에너지 개선은도 극적 영향을 가질 수 있었습니다."

맞춘 메모리는 대기업이 되고 있습니다. "당신은 메모리 내장 계산, 가까운 기억 계산, 기입 모두 제로 기억일지도 모르는 특정한 메모리와 같이 사물을 보기 시작합니다 - 어떤 업태에 대해 최적화되는 " 기억라고, 사그구르티는 말합니다. "우리는 많은 고객들이 원격 통신 접근 방식에 우리에게 SRAM과 원격 통신 접근 방식과 어떤 비틀기의 심지어 많은 특화인 MRAM에 대해서 물어 보는 것을 보고 있습니다."

어려움은 그러나 남습니다. "내가 맞춘 메모리 설계에 관하여 토론을 상당히 구비했으며, 그 곳에서 메모리 다이 위의 처리는 '이상적' 건축이었을 것이라고 " 프랭크가 말합니다. "그것은 고대역폭, 낮은 지연, 기타 등등을 제공했을 것입니다. 모든 것은 사실을 제외하고 메모리 프로세스가 어떠한 논리가 통합될 수 있었는지 제한하고 있었다는 것 곧바로 이었습니다 - 3 또는 4 금속층 그러나 저동력 그러나 느린 트랜지스터. 그것은 계산엔진을 위한 비효율성을 의미했습니다. 사크리프아이싱 클럭 속도와 회로 복잡도는 갑자기 더 이상 그와 같지 않은 계산엔진의 통합을 좋은 선택을 만들었습니다."

그러나 이러한 변경의 일부는 필요하게 될 것입니다. "사람들이 칩에 플래시를 가져오고 내장형 플래시로 만들고 싶다"고 사그구르티가 말합니다. "그리고 나서 질문이 됩니다, 그것이 심지어 가능합니까?28nm '에서 당신은 내장형 플래시를 할 수 있을지도 모르지만, 그러나 사람들이 22nm에 MRAM과 같은 것에 대해 생각하기 시작합니다."

여전히, 문제를 보기 위한 다른 방법이 있습니다. 웨이퍼를 가로질러 그리고 다이를 가로질러 프로세스 가변성 그리고 심지어 시간이 지나면서 제한 메모리 설계가 사그구르티를 추가합니다. 당신이 기억을 설계하 " 때, 단순한 SRAM, 당신이 비트 셀이 한 방법을 갈 때 그 사례의 설계를 하는 경향이 있습니다 - 느리 - 그리고 주변은 다른 방향으로 갑니다 - 빨리. 그것의 설계를 하면, 그리고 당신의 실리콘의 대다수가 전형적이면, 당신은 많은 성능과 권력을 테이블에 남기고 있습니다. 프로세스 범위에 있는 곳 이해하고, 칩 설계자가 그 정보에 작용할 수 있게 하면 당신은 따라서 타이밍을 조정할 수 있습니다. 당신의 설계는 더 최적이고 당신이 최악의 경우의 설계를 할 필요가 없습니다."

결론
기억이 항상 설계 트레이드 오프인 동안, 대역폭과 권력과 지역의 관점에서 성능 리미터일 지라도, 그것은 결코 처리로서 똑같은 수준의 관심을 받지 않았습니다. AI는 사람들이 부득이 기억 장치 구조를 재고하게 하고 있지만, 그러나 저 특별한 관심으로, 디자인 팀이 또한 유산 기억장치 시스템에 대해 최적화된 소프트웨어와 알고리즘의 일부를 재고할 수 있습니다. 성능 이득이 매 18 달마다 무료로 오지는 않는 세계에서, 더 휴 그랜트의 선택은 제품이 상품이 되지 못하게 하기 위한 유일한 방법이 되고 있습니다.(브라이언 베일리로부터)

연락처 세부 사항

뉴스

도메인 특유 메모리