디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

돌죽으로 논문쓰기

ASCIIPhilia갤로그로 이동합니다. 2025.03.21 05:11:45
조회 1147 추천 21 댓글 19
														

때는 바야흐로 2020년, NeurIPS(AI 탑티어 학회)에 강화학습 연구에 넷핵을 쓴 논문이 등장 (페이스북측에서 연구함)


The NetHack Learning Environment

24b0d121e09c28a8699fe8b115ef046c62f82a4794

---

본 논문에서는 인기 있는 단일 플레이어 터미널 기반 로그라이크 게임인 NetHack을 활용하여, 확장 가능하고, 절차적으로 생성되며, 확률적이고, 풍부하며, 난이도가 높은 RL 연구용 환경인 **NetHack Learning Environment(NLE)**를 제안합니다. 우리는 NetHack이 탐험, 계획, 스킬 습득, 언어 조건부(language-conditioned) RL 등의 장기 연구 과제를 위한 충분한 복잡성을 갖추었으며, 동시에 대규모 경험 수집을 위해 요구되는 계산 자원을 극적으로 줄일 수 있음을 주장합니다.


맵 전체랑 플레이어 주위 9x9 맵 공간을 크롭한 맵 정보, 그리고 상태창 정보를 각각 CNN(이미지 인식 신경망)과 MLP(일반 신경망)를 통해 정보를 압축하고, LSTM(시계열 데이터 처리 신경망)에 넣어서 행동 분포 π를 추정


---


넷핵을 강화학습 환경으로 이용할 수 있는 프레임워크를 제공하는 논문이고


개인적으로 인상 깊었던 부분들 몇가지 발췌


---

논문에서는 10번 연속 승천하는 것을 "넷핵을 완전히 해결했다"로 정의


Staircase
초기 태스크는 다음 층으로 내려가는 계단을 찾는 것입니다. 우리의 에이전트는 문을 차서(kick) 부수거나, search 명령으로 비밀 통로를 찾는 법을 배우며, 최고 77.26% (수도승), 80.42% (마법사) 성공률에 도달합니다. 이는 잠긴 문을 잘못 차다 벽에 부딪혀 체력을 잃거나 사망할 위험이 있음에도 관련 스킬을 학습했음을 뜻합니다. RND를 적용하면 탐험이 더 촉진되어, 수도승은 +13.58%p, 발키리는 +16.34%p 등 성공률이 추가로 상승했습니다(마법사는 예외).

Pet
반려동물(강아지, 고양이 등)을 살려 두고 계단까지 동반하는 태스크입니다. 펫이 함정에 빠지거나 적에게 죽으면 실패합니다. Staircase 태스크보다 난이도가 높아서 성공률이 다소 낮게(예: 수도승 62.02%, 관광객 25.66%, 마법사 66.80%) 나타났지만, RND로 비슷한 성능 상승이 있었음을 확인했습니다.

Eat
배고픔으로 인한 사망을 막기 위해 음식이나 몬스터 사체를 찾아먹어야 합니다. 수도승과 관광객은 초반부터 식량을 들고 시작하기에(사과, 오렌지, 음식 비축 등) 비교적 쉽게 먹을 수 있지만, 발키리나 마법사는 사냥을 통해 시체를 확보해야 합니다. 발키리는 이 과정을 학습하며 가장 오랜 생존 시간(평균 1713 턴)을 달성했습니다. 한편 RND는 여기서는 크게 이득을 주지 못했는데, 이는 이미 몬스터 시체 등을 통해 충분히 학습 신호(영양 가치)가 주어지기 때문이라 추측됩니다.

Gold
골드를 찾는 것은 희소 보상에 해당합니다. 그럼에도 에이전트들은 꾸준히 골드를 모으며, 더 깊은 던전 층에서 더 많은 금화나 값비싼 보석을 찾으려 애씁니다. 예컨대 수도승 모델은 평균적으로 4.2층, RND 적용 시 5.0층까지 내려갔습니다.

Score
NetHack의 내장 점수를 최대화하는 태스크입니다(2.4절에서 설명했듯, 장기적으로는 이 점수가 최종 승천과 완전히 동일한 지표는 아니지만, 중간 목표로 적합함). 수도승 모델은 평균 748점을 기록했고, 관광객은 11점으로 상대적으로 낮았으며, 발키리는 573점, 마법사는 314점 정도였습니다. RND 적용 시 수도승은 평균 780점으로 소폭 향상했습니다. 가장 깊게 내려간 사례는 11층까지 가서 4260점을 획득했고, 경험 레벨 7까지 올랐습니다(부록 표 6).

Scout
지금까지의 과제(골드, 스코어)와 유사하게, 정해진 던전 타일 중 아직 밝혀지지 않은 곳을 발견할 때마다 보상을 줍니다. 에이전트는 보다 안전한 경로로 맵을 돌아다니며, 적을 상대하지 않고 회피하면서 진행할 수도 있습니다. 실제로 점수 상승이나 레벨 업을 늦추어 적의 강함을 억제하는 전략은 NetHack 커뮤니티에서도 알려져 있습니다 [50].

Oracle
던전 5~9층 어딘가에 있는 ‘오라클(@)’을 찾는 과제입니다. 지금까지의 에이전트들은 이 과제에서 거의 성공하지 못했으며, 발키리만이 극히 드문 한 번의 에피소드에서 찾았습니다. 깊은 층을 찾아다녀야 하고, 던전이 여러 갈래로 분기될 수 있어 매우 까다로운 탐험 태스크입니다. 이는 향후 NetHack 환경에서 난해한 탐험 문제를 연구하기 위한 대표적인 시험 무대가 될 것입니다.


에이전트들의 사망 원인을 분석해 보니, 시간 경과에 따라 굶주림으로 인한 사망이 줄어들고, 대신 더 깊은 층의 몬스터(gnome lord G, gnome king G, chameleon : 등)에게 죽는 사례가 늘어났습니다(부록 그림 9). 카멜레온은 자꾸 형태를 바꿔 처음 보는 심볼이 자주 등장하므로, 에이전트가 익숙하지 않은 상태 기호를 자꾸 보게 되어 혼란스러워합니다.
우리는 학습된 정책 중 일부를 녹화 파일(tty)로 공개했으며, 이를 웹 브라우저나 터미널에서 재생해볼 수 있습니다(부록 J 참조).


NetHack Alt.org(NAO) 서버에는 500만 회 이상의 인간 플레이 로그가 축적되어 있고, 하루에도 수백 회씩 클리어(또는 사망) 기록이 올라옵니다 [47]. 이는 시범 학습, 모방 학습, 역강화학습 등에 매우 귀중한 자원이 될 수 있습니다

---



로그라이크(roguelike)를 활용한 이전 시도
과거에도 Roguelike 게임을 RL 플랫폼으로 쓰려는 움직임이 있었으나, Rogue 자체는 NetHack 대비 훨씬 간단합니다 [5]. 또는 Dungeon Crawl Stone Soup를 연구하자는 제안이 있었지만 [20], 실제 환경 구축 사례나 풍부한 실험 결과는 부족합니다.
NetHack을 RL 환경으로 쓴 선행 예로는 gym_nethack [14,15]가 있습니다. 다만 이들은 NetHack 소스 코드를 많이 수정하여, 문제의 난이도를 크게 낮추었습니다(함정, 자물쇠 문, 바oulder, 아이템 식별 등의 제거). 이는 사실상 간소화된 Rogue에 가까우며, 구버전 NetHack에 존재하는 결점을 악용할 여지도 있습니다.

*.넷핵이 강화학습 환경으로 쓰인건 페이스북이 처음은 아닌 듯 - Exploration in NetHack With Secret Discovery


갑자기 논문에서 돌죽 등장해서 

[20] Dustin Dannenhauer, Michael W Floyd, Jonathan Decker, and David W Aha. Dungeon crawl stone soup as an evaluation domain for artificial intelligence. Workshop on Games and Simulations for Artificial Intelligence, AAAI, 2019.


레퍼런스 찾아보니 더스틴 다넨하우어 박사님이 AAAI (이곳도 AI 탑티어 학회) 2019년 워크숍에 이런 제안을 한 적이 있다고 ㅋㅋㅋ, 선행 사례도 이미 있고 해서 그런지 페이스북측은 결국 넷핵이 더 마음에 들었긴 했나 봄


하튼 저 박사님이 뭐하시는 분인지 궁금해서 조금 찾아보다가 개인 페이지를 찾을 수 있었는데

https://dtdannen.github.io



24b0d121e09c28a8699fe8b115ef046f5d4b9f9eaa

어딘가 모르게 푸근한 겜돌이 이미지에, 연구자로서의 화려한 경력...


이분이 하신 작업들을 따라가보니, 인공지능 연구에 돌죽을 쓰기 위한 시도들을 하신 것을 찾을 수 있었음


Dungeon Crawl Stone Soup as an Evaluation Domain for Artificial Intelligence (AAAI)

dcss-ai-wrapper: An API for Dungeon Crawl Stone Soup providing both Vector and Symbolic State Representations


24b0d121e09c28a8699fe8b115ef046ec24ec9ff25

---

게임은 동적이며 확률적이고, 부분적으로만 관찰 가능하며, 상태 공간은 스타크래프트나 바둑보다 훨씬 방대하다. DCSS는 극도로 어렵다고 알려져 있으며, 한 번의 실수가 캐릭터의 영구적인 죽음으로 이어질 수 있다.

이러한 환경에서 AI 기술을 평가하기 위해 최초로 DCSS를 위한 API인 dcss-ai-wrapper를 개발했다. 이 API는 웹서버 모드에서 DCSS와 상호작용하며, Python으로 작성되어 GitHub에서 공개적으로 사용할 수 있다.

상태 공간과 환경 특성 DCSS의 복잡성은 다음과 같은 요소들에서 기인한다:

  • 650개 이상의 몬스터 타입

  • 13,800개의 캐릭터 시작 구성(종족, 직업, 신앙 등)

  • 31개의 기술 및 3개의 속성

  • 100개 이상의 주문

  • 48개의 근접 및 원거리 무기

  • 게임 완료에 필요한 최소 3개의 룬

  • 평균 65,000~80,000번의 행동(턴)

  • 40개 이상의 소비형 아이템(포션, 두루마리 등)

  • 100개 이상의 절차적으로 생성된 레벨

  • 부분 관찰성, 동적 및 확률적 환경, 영구적인 죽음

상태 공간의 이론적 크기는 최소 10^14000으로, 스타크래프트, 바둑, 체스보다 월등히 크다.

---

내용은 페이스북 넷핵 논문과 달리 구현한 에이전트의 행동에 대한 내용은 별로 없고, 돌죽을 연구에 쓰기 위한 초석을 닦은 내용(환경 구축, 왜 이 게임을 연구에 써야하는 지)인 듯 



24b0d121e09c28a8699fe8b115ef046544adfb3ff6

https://www.youtube.com/watch?v=abil4X3UTv0

 


22년 인지 시스템 학회 컨퍼런스에서 위의 돌죽 AI 환경 사용하는 튜토리얼 보여주시는데 이런게 덕업일치인가 싶다 ㅋㅋㅋ

추천 비추천

21

고정닉 9

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 술 마시면 실수가 많을 것 같은 스타는? 운영자 25/04/14 - -
공지 로그라이크 갤러리 이용 안내 [56] 운영자 16.04.08 88951 24
494550 엘린 23.129 패치노트 [1] Khelerd갤로그로 이동합니다. 00:07 44 2
494549 뭐야 블루베리 비옥도 1쓰네? [4] Khelerd갤로그로 이동합니다. 04.19 76 0
494548 ㅇㄹ)이거 팔미아 타임즈인가 다른유저들 로그 받아오는거임? [5] 익스비갤로그로 이동합니다. 04.19 76 0
494547 ㅇㄹ) 아니 왜 이런 기능 있다고 말 안해줬어 레후딥의수정창갤로그로 이동합니다. 04.19 57 0
494546 엘린) 3성 생선 개미쳤네 [2] 로갤러(222.101) 04.19 83 0
494545 아돔급 정통 로그라이크 하나 없나 [4] 으으엨갤로그로 이동합니다. 04.19 73 0
494544 카타클 조작 폰이 더 낫다 Lasshole갤로그로 이동합니다. 04.19 32 0
494543 올만에 왔지만 여전히 돌죽갤이군.... [2] ㅁㄱㅌㅊ(39.122) 04.19 93 0
494541 엘린) 지금 당장 첫낚시 피트를 찍어야하는 이유 [1] Khelerd갤로그로 이동합니다. 04.19 79 0
494540 근데 알쳄모는 왜 알챔모라고 부름? [3] ㅇㅇ(211.36) 04.19 76 0
494539 ㄷㅈ)요새 이레데렘눌 초반 국밥인듯 [1] ㅇㅇ(58.77) 04.19 40 0
494538 엘린 낚시가 낚싯대 경도에 영향받는다던데 [5] Khelerd갤로그로 이동합니다. 04.19 96 0
494537 엘린) 23.129 대응 완료 [3] 으으엨갤로그로 이동합니다. 04.19 64 7
494536 ㄷㅈ) 아니 이런게 1층에 뜬다고?? [4] 마요바요갤로그로 이동합니다. 04.19 64 1
494535 카타클 조작이 그리 어려우면 [5] R-갤로그로 이동합니다. 04.19 79 0
494534 중독되기 쉬움 특성 달고 게임하는데 생각보다 당황스러움 [4] 머방이갤로그로 이동합니다. 04.19 92 0
494533 ㅇㄹ) 바깥도 다 캐지네 ㅇㅇ(124.48) 04.19 56 0
494532 로그라이크류 게임의 UI나 디자인부분에서 불편하신점 있으셨나요? [6] 로갤러(211.225) 04.19 100 0
494530 마참내! [4] 머방이갤로그로 이동합니다. 04.19 76 0
494529 카타클리즘 밝은밤) 방어구들이 내 몸 커버하는거 볼수 있는 방법 없나? [3] Mistress갤로그로 이동합니다. 04.19 59 0
494527 ㄷㅈ) 스핑크스 시스터즈 올룬클 [14] ㅇㅇ갤로그로 이동합니다. 04.19 119 6
494526 엘린 많이 바뀜? [2] 로갤러(59.23) 04.19 87 0
494525 헬기 로터가 부족해서 못날면 뭐다? [9] 머방이갤로그로 이동합니다. 04.19 71 0
494524 ㄷㅈ) 와 2층 상점에 이런 반지가 있네 마요바요갤로그로 이동합니다. 04.19 53 2
494523 ㅋㅌㅋㅂㅂ) FILTHY 플래그가 사라질 예정 [5] 점화자갤로그로 이동합니다. 04.19 79 0
494522 ㅇㄹ) 오병이어의 기적 [2] 로갤러(218.237) 04.19 115 1
494521 ㅇㄹ) 와 이제 포션 제작 가능하네 쎆쓰 ㅋㅋㅋㅋㅋ [2] ㅇㅇ(49.246) 04.19 89 0
494520 ㅇㄹ) 에우레카 영입어캐함? ㅇㅇ(218.145) 04.19 48 0
494517 ㄷㅈ)바뀐 거 아님? [13] ㅇㅇ(118.91) 04.19 156 2
494516 ㄷㅈ)패스월 언제바뀜? [1] ㅇㅇ(118.91) 04.19 72 0
494515 ㅋㅌㅋㅂㅂ돼지말고 양한테서 젖이 나오긴하네 [6] 머방이갤로그로 이동합니다. 04.19 49 0
494514 ㅇㄹ) 안정판 떴다 [1] ㅇㅇ갤로그로 이동합니다. 04.19 80 0
494510 ㅌㅈ 갑자기 떠올랐는데 네크 영웅주입물 개쩔지않음?? [2] ㅇㅇ갤로그로 이동합니다. 04.19 77 0
494509 떼껄룩 스핑크스는 왜 바딩과 망토를 두르지 못하는가!!!!!! [3] ㅇㅇ갤로그로 이동합니다. 04.19 75 1
494508 ㄷㅈ)스핑크스폼 크기 대형으로 고정인 줄 알았는데 [5] ㅇㅇ갤로그로 이동합니다. 04.19 94 2
494507 ㄷㅈ)노바디는 어떻게 잡으라는 거야 [6] ㅇㅇ갤로그로 이동합니다. 04.19 101 2
494505 톰죽 세이브 너무 자주 깨지는데 이유가 멀가 [4] ㅇㅇ(220.90) 04.19 61 1
494504 ㄷㅈ 잉크웰인가 이건 어케 써먹는폼임? [5] ㅇㅇ(220.90) 04.19 87 0
494503 돌죽)스노그는 귀엽다. [2] 와그너스갤로그로 이동합니다. 04.19 97 1
494502 ㄷㅈ)실전압축반지.ㄷㅍㅁㅍ [1] ㅇㅇ갤로그로 이동합니다. 04.19 82 1
494501 ㄷㅈ)껄룩이 탈리스만은 서리야크보다 메두사가 나은 듯 ㅇㅇ갤로그로 이동합니다. 04.19 51 1
494499 ㄷㅈ) 지구랏으로 키운 딥엘 컨져러 올룬클 [3] 로갤러(61.74) 04.19 95 0
494498 ㄷㅈ) 무덤 1층 처음으로 이용한 계단은 무조건 2층 중앙인가? [10] 로갤러(61.74) 04.19 100 0
494496 돌죽)4월 14일 ~ 18일 패치 [12] 와그너스갤로그로 이동합니다. 04.19 243 8
494494 ㅌㅈ샤쉬카이쉬 최댜로 소환하니 ㅈㄴ 쎄네 [7] ㅇㅇ(220.90) 04.19 74 0
494492 돌죽)어흑흑 스핑크스탈리스만은 별 패치없이 트렁크 동결 [5] 와그너스갤로그로 이동합니다. 04.19 139 0
494490 ㅂㅂ)스태미나 딸리면 이속도느려졌었는데그거고쳤나보네 [1] seeu갤로그로 이동합니다. 04.19 68 0
494489 그래픽 진입장벽이 넘 센데 [4] 로갤러(121.143) 04.19 166 1
494486 ㄷㅈ) 기도술 올리기 왤케 싫지? [4] 로갤러(114.200) 04.19 108 0
뉴스 23억 사기당해 15평 거주…김상혁에 역술가 “총체적 난국” (’살림남’) 디시트렌드 04.19
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2