문제
인공지능 학습 방식 중, 환경과의 상호작용을 통해 보상(reward)을 최대화하도록 행동을 학습하는 방식은 무엇인가?
정답
강화 학습
강화 학습강화학습Reinforcement LearningRL
해설
강화 학습(Reinforcement Learning)은 에이전트가 환경과 상호작용하면서 행동에 대한 보상이나 처벌을 받아 최적의 정책을 학습하는 방식입니다. 지도 학습은 정답 라벨이 있는 데이터로 학습하고, 비지도 학습은 라벨 없이 패턴을 발견하는 반면, 강화 학습은 시행착오를 통해 보상을 최대화하는 행동을 학습합니다.