라데온 RDNA가 방향성이나 기술은 좋음.

컴갤러 · 2024.04.24 13:59:52

199cf20ac09c28a8699fe8b115ef046ca6f885ea

공짜로 샘플을 받는 수많은 리뷰어들은 왜 이런 표도 안만들어놨는지 이유를 모르겠지만 3080은 8704 코어인데 왜 5120 코어인 6900 XT를 이기지 못하는지, 7900 XTX는 6144코어인데 9000 몇개 계산도 못하겠는 4080하고 비슷한 성능을 내는지 이런 것 궁금한 사람은 없나 싶어 글써본다.

2000년대와 비교하면 이쪽 업계가 죽어가고 있고, 열정도 없는 게 느껴진다. 소비자한테 가야 할 공짜 샘플은 20배로 늘어난 것 같은데 나오는 정보는 1/20도 안되는 것 같다.

죄다 똑같은 사양, 똑같은 게임, 똑같은 내용, 이제 통찰력이나 날카로운 분석은 찾아볼 수 없다. 유툽 검색해보면 별에별놈도 다 리뷰 샘플 받던데 그걸로 뭐 하는 건지 모르겠더라

양질의 리뷰를 제공했던 Anandtech은 GPU 리뷰를 몇년째 못하고 있고, 지금은 하드웨어 언박스드 정도만이 샘플을 잘 활용해서 고마울 따름이다.

4080이 코어 9000 몇개 달고도 왜 6144 코어 7900 XTX를 이기지 못하는가? 이 표가 가장 근본적인 이유다. FP32 뻥튀기를 떠나서 AMD의 스트림프로세서가 엔비디아의 쿠다코어보다 자원이 많으니까.

자원을 바탕으로 웨이브프론트(AMD) 또는 워프(Nvidia)라는 스레드 묶음 단위를 더 많이 띄워서 레이턴시를 더 효과적으로 은폐할 수 있음.

그럼 코어가 레이턴시를 덜 기다리니 같은 시간에 더 많이 일할 수 있다. 수많은 리뷰를 봐도 이런 간단한 설명 하나 없다. 맥스웰, 파스칼 아키텍쳐가 그렇게 효율적이라고 호들갑 떨던 리뷰어들이 AMD가 똑같이 하니까 언급도 거의 안하더라. ㅇㅇ

조금 더 자세한 설명하자면 AMD는 SIMD당 웨이브를 최대 16개씩 띄워놓고 레이턴시가 발생할 때마다 다음 웨이브로 교체해서 작업을 계속 이어나가면 느린 레이턴시를 일일이 기다리지 않아도 됨. 이게 GPU가 레이턴시 피해를 막는 방법이다.

엔비디아는 이걸 12개밖에 못 띄우고 그마저도 워프 12개를 온전히 유지하려면 워프당 레지스터 42.6 바이트를 초과할 수 없다. 표에는 없지만 라데온은 벡터 연산에 방해되는 1회성 스칼라 연산을 전용 유닛으로 걸러내서 따로 처리한다.

이 스칼라 전용 유닛이 쓰는 레지스터와 캐시까지 다 따로 있다. 이게 스트림프로세서(벡터 유닛)가 자기 일에만 전념할 수 있도록 해서 레이턴시를 추가로 완화해주는 효과가 있다. 그래서 라데온은 레이턴시에 덜 민감하다.

메모리 계층에 있어서도 AMD는 L0부터 L3 캐시까지 4레벨 캐시 구조로 되어있고, 엔비디아는 전통적인 2레벨 캐시다. 캐시를 4번이나 체크하니까 라데온은 VRAM 대역폭에도 덜 민감하다. 느린 VRAM에 덜 가고 가더라도 덜 기다리니까.

대역폭과 레이턴시에 덜 민감하다는 것은 코어가 주어진 시간에 더 일한다는 뜻으로 적은 코어로 더 높은 성능을 낼 수 있다. 이게 위에도 말했지만 FP32의 성능이나 표기법을 떠나서 기본적인 코어수 대비로 봤을 때 6000 코어가 9000 코어를 상대하는 방법이다.

그래서 게이들아 내가 하고 싶은 말은 엔비디아와 AMD의 비교가 아니고, 레이턴시를 은폐해주는 벡터 레지스터의 중요성을 말하고 싶었다. 말이 많았지만 레지스터가 코어당 성능의 핵심이다.

내가 보기에는 한국이 엔비디아 빨아재끼는 것도 있고 국내 유통사들 (퀘이사존 등)이 이미지를 망친것도 한 몫 하지만 결정적으로는 RDNA 3 아키텍쳐가 특히 국내에서 너무 저평가된 것 같다. 검색해보니까 RDNA 2와 IPC가 똑같다느니 그런 이상한 글이 보이는데 7600과 780M은 RDNA 3의 가장 중요한 변경점이자 RDNA 3 전부라고 해도 좋을 이 레지스터 확장이 포함되지 않았다.

얘네들은 RDNA 3가 아니라 2.5 내지는 2+가 옳다. 따라서 이들로 RDNA 2와 3를 비교하는 것은 적절하지 않다.

22bed333f5d336a577f1c6bb11f11a392ea891f04d385c8b

라스트 오브 어스에서 웨이브프론트 occupancy 순으로 정렬한 1200여개의 파이프라인. 파이프라인의 절대다수는 SIMD당 1024 Bytes 레지스터로 충분해서 웨이브 16/16개를 유지할 수 있지만 이 아래부터 레지스터 부족으로 occupancy가 떨어지기 시작한다.

RDNA 2는 이미 엔비디아보다 코어당 레지스터가 2배 많아서 파이프라인 10개 중 일곱, 여덟은 문제 없지만 이 둘, 셋이 문제다. 이유는 2가지다. 레이트레이싱를 쓰거나 아주 무거운 셰이더를 사용하거나. 레지스터 1.5배 확장이 여기서 큰 도움이 된다.

7ce88474b1836df73bf1c6bb11f11a3976e36b172afef494

마찬가지로 라스트 오브 어스에서 RX6900XT로 처리한 컴퓨트 셰이더 큐 하나. 웨이브프론트당 레지스터를 100바이트나 써서 occupancy가 9/16로 떨어진 상황이다. 프레임 1장 전체에 16.2ms가 걸렸는데 얘 혼자 0.5ms나 차지한다. RDNA 3는 이런 무식한 워크로드도 꽤나 손쉽게 처리할 수 있을 거임.

198fef14d19c28a8699fe8b115ef046f4f75d073

198fef14d1ed2aa77780dfbb02d4362ece28cc168a8c173975fdaf4e0bb5b30c73bd896952

그리고 레이트레이싱. 어느 리뷰어인지는 모르겠으나 데이터자료 캡처해서 가져옴. RX6900XT의 새도우 오브 툼레이더의 레이 트레이싱 성능이다. 프레임당 박스 교차 테스트 8200만번, 삼각형 교차 테스트 2200만번하여 프레임 1장 전체 13.8ms 중에 3ms가 걸리는 시나리오 그래프라 보면 됨.

역시 레지스터 부족으로 웨이브가 평균 12개만 돌아가는 상황. RDNA 3였으면 occupancy를 꽉 채워서 수월하게 끝냈을 거라고 봄.

RDNA 3의 다른 주요 변경점은 L0과 L1 캐시가 2배로 늘었다. 780M은 여기서도 L0만 늘었고 L1은 포함되지 않았다. RDNA 2에서 L1 캐시가 4레벨 캐시 중에 적중률이 제일 낮은 편인데 RDNA 아키텍쳐 공통적으로 L2 캐시 대역폭이 경쟁사보다 높아서 상관없다고 판단한 모양이다.

예를 들면 6900 XT는 L2 캐시 버스폭이 2048-Byte이고 3090은 1536-Byte였기 때문에 L2 캐시만으로도 이미 경쟁사보다 더 많은 대역폭을 제공한다. 심지어 L2 캐시에서 미스가 나도 L3 캐시까지 있다.

그래서 L0, L2, L3 캐시까지 있는 AMD 아키텍쳐에서 L1 캐시 혼자 약한 것이 그렇게 큰 문제는 아닌데 레이트레이싱에서는 문제가 되는 것이 사실이다. 레이트레이싱은 대역폭도 대역폭이지만 레이턴시에도 민감하기 때문에 상위 캐시에서 적중하는 것이 중요하다. RDNA 3에서 레이턴시에 유리한 이 L0/L1 캐시가 2배로 늘었다.

01ecef25e4d130a351b7dfa104d030383c80304f4aa71ddfce5096f14b27b56a825ed54e395aec

마찬가지로 리뷰어 데이터자료 가져와봄. RX6900XT로 라스트 오브 어스에서 프레임 1장을 그리는 동안 L1 캐시의 평균 적중률은 37%.

다른 게임들도 30%대로 다 비슷하다. RDNA 3는 2배 늘어난 L1에서 메모리 엑세스를 더 많이 흡수해서 안그래도 바쁜 L2의 부담을 줄이고 성능 향상에 기여함.

1f99fe07da8007b07d80e49138f01b6e60e3e96955aa34a58ed8cb43c82f00b6

직접 비교해보고 싶은데 나는 7900 카드가 없어서 Chips and Cheese의 자료를 인용한다. 조금 극단적인 사례지만 6900 XT가 사이버펑크 2077에서 7.2ms 걸린 레이트레이싱 교차 테스트를 7900 XTX는 2.8ms만에 끝냈다. 레지스터와 L0/L1 캐시가 확장된 덕이라고 봄.

언급은 안했지만 RDNA 3에서 레이트레이싱 사용시 traversal을 가속하도록 LDS가 개량된 덕도 있다. 그리고 게이들아 잊지말아야 할 것은 7900 XTX는 고작 96 CU다 .(48 WGP). 6900 XT의 80CU보다 겨우 20% 더 많을 뿐인데 무거운 워크로드일수록 6900 XT와 성능 차이가 벌어짐.

그러나 레지스터가 모자르지 않은 70-80%의 가벼운 워크로드에서 RDNA 2와 3는 딱 클럭과 CU 차이만큼만 날 것으로 보임. 안쓰는 레지스터는 성능과 아무 영향이 없다. 그러면 나머지 20-30%가 프레임 전체 기간에서 얼마나 차지하는지가 관건이다.

정리하면 작업이 무거울수록 RDNA 3는 스펙 이상으로 유의미한 성능 차이를 내지만 가벼울수록 눈으로 보이는 스펙 차이에 가까워진다.

그래서? RDNA 3는 그럼 뭐가 문제라는 거지? 왜 스펙대비 엔비디아보다 성능이 덜 나오지?

우선적으로는 듀얼이슈가 제대로 안된다. 이게 치명적인 약점이다.

RDNA 3에서 2배로 늘린 FP32 유닛을 제대로 활용하지 못하고 있다. 엔비디아는 튜링에서 FP와 INT 데이터패스를 2개로 나눠서 이 문제를 해결했는데 RDNA 3는 아쉽게도 하드웨어에서 자동으로 듀얼이슈를 지원할 방법을 찾지 못한 것 같다. 게임에서 일일이 지원해줘야 하는데 해줄 리가없다.

두 번째로 스펙이 너무 떨어진다.

풀칩 기준 144SM인 4090과 비교하면 96 CU는 체급이 너무 작다. 바보 같은 원가절감이라고 생각한다.

칩이 작으니까 자꾸 클럭을 올리게 되고 5nm인데 1.1v를 넘겼다. 엔비디아는 전 제품이 1.0xv대에서 돌아간다. GPU쪽에서는 이런 일이 없었지만 저러다가 얼마전에 라이젠이 과전압으로 타버렸다. 클럭과 전압을 좀 낮췄으면 좋겠다.

그래서 결론은?

RDNA 3가 듀얼이슈가 엉망이라는 점만 빼면 RDNA 2의 약점을 잘 파악해서 적재적소에서 필요한 부분을 잘 개량했다.

스펙이 어이없이 낮아서 아키텍쳐까지 싸잡혀서 욕먹고 있지만 RDNA 3 아키텍쳐 자체는 옳았다는 것을 말하고 싶다.

번호	제목	글쓴이	작성일	조회	추천
설문	SNS로 싸우면 절대 안 질 것 같은 고집 있는 스타는?	운영자	24/05/06	-	-
4463285	4070슈퍼 화이트 얼마에 사면 잘 산거임? [6]	ㅇㅇ	08:20	84	0
4463284	본인 오늘 귀빠진날 [5]	민희진(106.102)	08:19	58	0
4463282	병신들 4090 샀어야지 [4]	컴갤러(118.235)	08:18	69	0
4463281	이것도 기쿨이야? [3]	컴갤러(106.101)	08:18	57	0
4463280	아 빅스마일데이 오늘 아니고 내일이네.. [2]	내오래된컴퓨터(39.7)	08:17	61	0
4463279	5월 5일 어린이날 기념 ㅈ소200충 통장 대공개	18099씹돼지(14.38)	08:17	39	0
4463277	인텔 13,14세대 cpu 가격 대폭 할인시작	ㅇㅇ(121.126)	08:15	46	0
4463276	80S 130짜리특가 스톰 바퀴벌레 에디션 쓰는 애들 좀 불쌍함 [4]	컴갤러(218.51)	08:14	41	3
4463274	알리 제습기 추천좀 [1]	컴갤러(118.235)	08:10	24	0
4463273	인생은 P2W이다	컴갤러(124.254)	08:09	17	0
4463272	고사양컴터 맞출 돈으로 그냥 차 사는데 보탤걸 [2]	ㅇㅇ(223.39)	08:06	60	0
4463271	인생은 [1]	컴갤러(175.117)	08:06	25	0
4463269	4080 super 파운더스 에디션 얼마에 파는게 좋냐 [3]	ㅇㅇ(223.39)	08:04	73	0
4463268	집이 있는 백수도 밖에 나가면 노숙자에게 주는 무료급식 밥주나? [2]	컴갤러(175.117)	08:04	44	0
4463264	아이디 파면..	내오래된컴퓨터(39.7)	07:57	15	0
4463262	철권8 데모버전 키보드 마우스로 할려면 좀 불편하지않나?	컴갤러(175.117)	07:55	29	0
4463259	인생 별거 없는데	컴갤러(175.117)	07:51	30	0
4463258	맨날 놀면 좋냐? [3]	컴갤러(175.117)	07:50	51	0
4463257	14700k와 4080super 컴을 맞추고 깨달은 점 [8]	ㅇㅇ(175.215)	07:49	106	0
4463256	섹톡 공유ㅎ	ㅇㅇ(112.221)	07:48	17	0
4463253	7600에 기가바이트 B650M K 인데 램 뭐 써야돼? [6]	ㅇㅇ(118.235)	07:44	51	0
4463252	스팀에 철권8 데모 버전 한글도 지원되냐?	컴갤러(175.117)	07:43	31	0
4463251	윈10은 언제까지 업데이트 보장됨? [12]	내오래된컴퓨터(39.7)	07:43	73	0
4463250	무선연결이랑 컴터 먹통되는거랑 연관있음?	ㅇㅇ	07:42	23	0
4463247	파폭 브라우저로 보면 유튜브화질이 안좋다길래 [3]	프라나(24.90)	07:37	31	0
4463244	fhd 144 옵치만 주로하는데 100만 130만 견적 차이큼? [4]	컴갤러(106.102)	07:34	61	0
4463242	섹톡 공유ㅎ	ㅇㅇ(112.221)	07:32	17	0
4463241	파묘가 뭔데 씹덕들아 [9]	컴갤러(194.180)	07:32	102	1
4463240	엔비디아 3d 설정 고를때 이거 로고 무슨 의미임? [3]	컴갤러(1.11)	07:31	56	0
4463239	pin 번호 < 별건가했는데 그냥 숫자 비밀번호였음..... [2]	ㅇㅇ(124.111)	07:31	41	0
4463238	디시 말고는 할게 없제?	컴갤러(175.117)	07:31	29	0
4463237	도와줘 헬프	asdf4(182.225)	07:29	43	0
4463235	파묘 토렌트로 다운받은놈들은 아마도 다 지금 걸렸음	컴갤러(175.117)	07:28	98	2
4463234	amd특 안되면 사용자 문제 [1]	컴갤러(182.226)	07:27	41	2
4463233	컴알못 컴맹 본체 좀 골라줘.. [7]	컴갤러(223.39)	07:25	57	0
4463231	va 패널 모니터는 잔상이 심하다던데 어느정도로 심한기노? [3]	컴갤러(175.117)	07:25	81	0
4463230	사용자문제라는말이 젤 싫음 [2]	컴갤러(220.120)	07:22	53	2
4463229	니 사는 게 쓰레기지 나라는 멀쩡해	ㅇㅇ(39.7)	07:22	27	3
4463228	7800xt살까 7700xt살까 고민임	컴갤러(211.234)	07:20	33	0
4463226	산업혁명시기 평균나이 30~40세 [2]	33dy	07:15	81	0
4463225	좆같은 보지년 내 쫓았다	ㅇㅇ(121.126)	07:14	38	0
4463224	TN패널 사용자인데 시발 전혀 차이를 모르겠는데? [6]	컴갤러(175.121)	07:14	68	1
4463222	토렌트 혼자 다운받아보는건 괜찮아 [12]	컴갤러(182.31)	07:11	133	0
4463221	한국에서 애 낳는 거 ㄹㅇ 죄 아님? ㅅㅂ	ㅇㅇ(223.38)	07:09	35	0
4463218	사니까	컴갤러(175.117)	07:04	21	0
4463217	좆같제?	컴갤러(175.117)	07:04	19	0
4463216	7.5만년전 컴붕이 모습 [6]	컴갤러(182.31)	07:04	92	1
4463215	파묘 노잼이던데 꼭 합법적으로 돈주고 사서 봐라 [1]	컴갤러(175.117)	07:03	52	0
4463214	오늘도 다들 처노냐	컴갤러(175.117)	07:01	27	0
4463212	형들 이륙해도 될까요? [6]	컴갤러(106.101)	06:58	70	0

최근 방문

즐겨찾기

즐겨찾기 갤러리

갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

개념글 리스트

차단하기

[컴퓨터 본체 갤러리]

갤러리 본문 영역

게시물을 간편하게 NFT로 만들어 보세요!

NFT 발행 방법

NFT 발행

비회원 글삭제,수정

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

파워링크 광고

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘

지갑 연결