학습하지 않은 낯선 상황에서도 스스로 올바른 판단을 내리는 인공지능(AI) 기술을 개발했다고 울산과학기술원(UNIST)이 26일 밝혔다.
UNIST 인공지능대학원 윤성환 교수팀은 환경 변화에도 성능 저하 없이 안정적으로 작동하는 강화학습 기법을 제시했다.
이에 따라 연구진은 누적 보상의 민감도를 낮추는 학습법을 제안했다.
행동 변화에 따른 누적 보상 값의 변화가 지나치게 커지지 않도록 정책 파라미터 공간에서 누적 보상의 곡면을 평탄하게 만드는 학습 전략이다.
기존 방식은 자율주행차가 눈길에서 감속 타이밍을 살짝 놓치면 큰 보상 손실로 이어져 전체 성능이 무너졌지만, 연구팀이 제안한 방식은 정책이 조금 바뀌어도 성능이 일정하게 유지된다.
실제 로봇의 마찰 조건이나 무게 등 물리적 요소를 변화시킨 상황에서 연구진의 새로운 학습법은 평균 보상 유지율이 80∼90%에 달해 높은 수준의 안정성을 입증했다.
반면 기존 학습법은 동일 조건에서 평균 보상이 절반 이하로 감소하는 등 성능 유지에 한계를 드러냈다.
윤성환 교수는 "높은 수준의 일반화 성능을 갖는 강화학습 모델이 필요한 로보틱스, 자율주행 등에 활용될 것"이라고 말했다.
이번 연구 결과는 세계 3대 AI 학회인 'ICLR'(International Conference on Learning Representations)의 구두 발표 논문으로 채택됐다.
전제 1만1천672편의 제출 논문 중 2% 이내인 207편만이 발표 기회를 얻었다.
연구는 정보통신기획평가원, 한국연구재단, UNIST의 지원을 받았다.