ChatPaper.aiChatPaper

LearnLM: 학습을 위한 Gemini 개선

LearnLM: Improving Gemini for Learning

December 21, 2024
저자: LearnLM Team, Abhinit Modi, Aditya Srikanth Veerubhotla, Aliya Rysbek, Andrea Huber, Brett Wiltshire, Brian Veprek, Daniel Gillick, Daniel Kasenberg, Derek Ahmed, Irina Jurenka, James Cohan, Jennifer She, Julia Wilkowski, Kaiz Alarakyia, Kevin McKee, Lisa Wang, Markus Kunesch, Mike Schaekermann, Miruna Pîslar, Nikhil Joshi, Parsa Mahmoudieh, Paul Jhun, Sara Wiltberger, Shakir Mohamed, Shashank Agarwal, Shubham Milind Phal, Sun Jae Lee, Theofilos Strinopoulos, Wei-Jen Ko, Amy Wang, Ankit Anand, Avishkar Bhoopchand, Dan Wild, Divya Pandya, Filip Bar, Garth Graham, Holger Winnemoeller, Mahvish Nagda, Prateek Kolhar, Renee Schneider, Shaojian Zhu, Stephanie Chan, Steve Yadlowsky, Viknesh Sounderajah, Yannis Assael
cs.AI

초록

오늘날의 생성형 AI 시스템은 기본적으로 정보를 제시하는 데 초점을 맞추어 사용자를 학습에 도움을 주는 인간 튜터처럼 관여시키는 대신합니다. 이러한 시스템의 다양한 교육 사용 사례를 다루기 위해, 우리는 교육적 행동 주입의 도전을 교육적 지시 후속으로 재구성합니다. 여기서 교육 및 평가 예시에는 후속 모델 변환에서 존재하거나 원하는 특정 교육 특성을 설명하는 시스템 수준의 지시사항이 포함됩니다. 이러한 구성은 우리의 모델을 교육학의 특정 정의에 얽매이지 않도록 하며, 대신 교사나 개발자가 원하는 모델 행동을 지정할 수 있게 합니다. 또한 교육을 위한 Gemini 모델의 개선을 위한 길을 열어줍니다. 이는 교육 이후 혼합물에 교육적 데이터를 추가함으로써 가능하며, 이는 그들의 빠르게 확장되는 능력 집합과 함께 이루어집니다. 두 가지는 초기 기술 보고서와 비교해 중요한 변화를 나타냅니다. 교육적 지시 후속으로 훈련하는 방법이 다양한 학습 시나리오에서 전문가 평가자들에 의해 상당히 선호되는 LearnLM 모델(구글 AI Studio에서 사용 가능)을 생성하는 방법을 보여줍니다. 이 모델은 GPT-4o보다 31%, Claude 3.5보다 11%, Gemini 1.5 Pro 모델 LearnLM을 기반으로 한 것보다 13%의 평균 선호도 강도를 보입니다.
English
Today's generative AI systems are tuned to present information by default rather than engage users in service of learning as a human tutor would. To address the wide range of potential education use cases for these systems, we reframe the challenge of injecting pedagogical behavior as one of pedagogical instruction following, where training and evaluation examples include system-level instructions describing the specific pedagogy attributes present or desired in subsequent model turns. This framing avoids committing our models to any particular definition of pedagogy, and instead allows teachers or developers to specify desired model behavior. It also clears a path to improving Gemini models for learning -- by enabling the addition of our pedagogical data to post-training mixtures -- alongside their rapidly expanding set of capabilities. Both represent important changes from our initial tech report. We show how training with pedagogical instruction following produces a LearnLM model (available on Google AI Studio) that is preferred substantially by expert raters across a diverse set of learning scenarios, with average preference strengths of 31\% over GPT-4o, 11\% over Claude 3.5, and 13\% over the Gemini 1.5 Pro model LearnLM was based on.
PDF222December 24, 2024