번역이 포함된 일일 선별된 AI 연구 논문
추론 기반 대형 언어 모델(LLM)이 수학 및 프로그래밍 분야에서 뛰어난 성과를 보였음에도 불구하고, 지식 집약적인 의학 질문 응답에서의 능력은 아직 충분히 탐구되지 않았습니다. 이를 해결하기 위해 우리는 170만 개의 초기 추론 경로에서 정제된 37만 개의 고품질 예시로 구성된 가장 큰 의학 추론 데이터셋인 ReasonMed를 소개합니다. ReasonMed는 다중 에이전트 검증 및 개선 프로세스를 통해 구축되었으며, 검증자가 표시한 오류 가능성이 높은 단계를 식별하고 수정하여 추론 경로를 향상시키는 Error Refiner를 설계했습니다. ReasonMed를 활용하여 의학 추론 모델 훈련을 위한 최적의 방법을 체계적으로 연구한 결과, 상세한 Chain-of-Thought(CoT) 추론과 간결한 답변 요약을 결합하는 것이 가장 효과적인 미세 조정 전략임을 발견했습니다. 이 전략을 바탕으로 훈련된 ReasonMed-7B는 10B 미만 모델의 새로운 벤치마크를 설정하며, 이전 최고 성능을 4.17% 앞섰고 PubMedQA에서 LLaMA3.1-70B를 4.60% 능가했습니다.
GitHub 이슈 해결 작업을 위한 대규모 데이터셋 구축은 대형 언어 모델(LLM)의 소프트웨어 공학 역량을 훈련하고 평가하는 데 있어 매우 중요합니다. 그러나 전통적인 벤치마크 생성 과정은 평가 환경 설정, 테스트 결과 채점, 작업 인스턴스 검증 단계에서 특히 어렵고 노동 집약적인 것으로 알려져 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 SWE-Factory라는 자동화된 파이프라인을 제안합니다. 이 파이프라인은 세 가지 핵심 자동화 구성 요소를 통합합니다. 첫째, 평가 환경 구축을 자동화하는 다중 에이전트 시스템인 SWE-Builder를 소개합니다. 이 시스템은 네 가지 특화된 에이전트가 협력적이고 반복적인 루프에서 작동하며, 환경 메모리 풀을 활용하여 효율성을 높입니다. 둘째, 사용자 정의 파서를 수동으로 작성할 필요를 없애는 표준화된 종료 코드 기반 채점 방법을 도입합니다. 마지막으로, 이러한 신뢰할 수 있는 종료 코드 신호를 사용하여 fail2pass 검증 프로세스를 자동화합니다. 4가지 프로그래밍 언어에 걸친 671개 이슈에 대한 실험 결과, 우리의 파이프라인이 유효한 작업 인스턴스를 효과적으로 구축할 수 있음을 보여줍니다. 예를 들어, GPT-4.1-mini를 사용할 때 SWE-Builder는 인스턴스당 0.045의 비용으로 269개의 유효한 인스턴스를 구축하며, Gemini-2.5-flash를 사용할 때는 인스턴스당 최저 비용인 0.024로 비슷한 성능을 달성합니다. 또한, 종료 코드 기반 채점이 수동 검사와 비교하여 100% 정확도를 달성하고, 자동화된 fail2pass 검증은 0.92의 정밀도와 1.00의 재현율에 도달함을 입증합니다. 우리의 자동화된 파이프라인이 대규모 고품질 GitHub 이슈 해결 데이터셋의 수집을 가속화할 수 있기를 바랍니다. 우리의 코드와 데이터셋은 https://github.com/DeepSoftwareAnalytics/swe-factory에서 공개되었습니다.
이미지 복원은 훼손된 이미지를 복구하는 것을 목표로 합니다. 그러나 기존의 확산 기반 복원 방법들은 자연 이미지 복원에서는 큰 성공을 거두었지만, 훼손된 이미지의 텍스트 영역을 충실히 재구성하는 데 어려움을 겪는 경우가 많습니다. 이러한 방법들은 종종 그럴듯하지만 잘못된 텍스트 유사 패턴을 생성하는데, 이를 우리는 텍스트-이미지 환각 현상이라고 부릅니다. 본 논문에서는 시각적 내용과 텍스트 정확도를 동시에 복구해야 하는 새로운 복원 작업인 텍스트 인식 이미지 복원(Text-Aware Image Restoration, TAIR)을 소개합니다. 이 작업을 해결하기 위해, 우리는 다양하고 복잡한 텍스트 인스턴스로 밀집하게 주석이 달린 10만 개의 고품질 장면 이미지로 구성된 대규모 벤치마크인 SA-Text를 제시합니다. 또한, 우리는 TeReDiff라는 다중 작업 확산 프레임워크를 제안합니다. 이 프레임워크는 확산 모델의 내부 특징을 텍스트 탐지 모듈에 통합하여 두 구성 요소가 공동 학습을 통해 이점을 얻을 수 있도록 합니다. 이를 통해 풍부한 텍스트 표현을 추출할 수 있으며, 이는 후속 노이즈 제거 단계에서 프롬프트로 활용됩니다. 광범위한 실험을 통해 우리의 접근 방식이 최신 복원 방법들을 일관되게 능가하며, 텍스트 인식 정확도에서 상당한 향상을 달성함을 입증합니다. 프로젝트 페이지를 참조하십시오: https://cvlab-kaist.github.io/TAIR/
본 논문에서는 대형 모델의 다단계 추론 능력을 평가하기 위해 제작된 최초의 장편 내러티브 비디오 벤치마크인 VRBench를 소개한다. 이는 기존 평가에서 간과되었던 시간적 추론과 절차적 타당성의 한계를 해결하기 위해 설계되었다. VRBench는 평균 1.6시간 길이의 1,010개의 장편 비디오와 9,468개의 인간이 라벨링한 다단계 질문-답변 쌍, 그리고 타임스탬프가 포함된 30,292개의 추론 단계로 구성되어 있다. 이 비디오들은 전문가 간 검토를 포함한 다단계 필터링 과정을 통해 선별되었으며, 플롯의 일관성을 우선시하였다. 우리는 인간과 AI가 협력하여 일관된 추론 체인을 생성하는 프레임워크를 개발하였으며, 이는 사건 귀속, 암묵적 추론 등 7가지 유형의 다단계 시간적 근거를 요구한다. VRBench는 결과와 과정 두 수준에서 모델을 평가하는 다단계 평가 파이프라인을 설계하였다. 최종 결과를 위한 객관식 문제 외에도, 우리는 진행 수준에서의 LLM(대형 언어 모델) 기반 채점 메트릭을 제안하여 추론 체인의 질을 다각적으로 종합적으로 평가한다. VRBench를 통해 12개의 LLM과 16개의 VLM(시각-언어 모델)에 대한 광범위한 평가를 수행하였으며, 이를 통해 다단계 추론 분야를 발전시킬 수 있는 유용한 통찰을 제공한다.
비디오 생성 모델의 급속한 발전에도 불구하고, 여러 장면과 캐릭터를 아우르는 일관된 스토리텔링 비디오를 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 현재의 방법들은 미리 생성된 키프레임을 고정된 길이의 클립으로 경직되게 변환하는 경우가 많아, 단절된 내러티브와 페이싱 문제를 초래합니다. 더욱이, 비디오 생성 모델의 고유한 불안정성으로 인해 단 하나의 저품질 클립이라도 전체 애니메이션의 논리적 일관성과 시각적 연속성을 크게 저하시킬 수 있습니다. 이러한 장애물을 극복하기 위해, 우리는 AniMaker를 소개합니다. 이는 다중 후보 클립 생성과 스토리텔링 인식 클립 선택을 가능하게 하는 다중 에이전트 프레임워크로, 텍스트 입력만으로 전역적으로 일관되고 스토리 일관성이 있는 애니메이션을 생성합니다. 이 프레임워크는 스토리보드 생성을 담당하는 Director Agent, 비디오 클립 생성을 담당하는 Photography Agent, 평가를 담당하는 Reviewer Agent, 그리고 편집 및 보이스오버를 담당하는 Post-Production Agent와 같은 전문화된 에이전트들로 구성됩니다. AniMaker의 접근 방식에서 핵심적인 두 가지 기술 구성 요소는 다음과 같습니다: Photography Agent의 MCTS-Gen은 몬테카를로 트리 탐색(MCTS)에서 영감을 받은 효율적인 전략으로, 후보 공간을 지능적으로 탐색하여 고품질 클립을 생성하면서 자원 사용을 최적화합니다; 그리고 Reviewer Agent의 AniEval은 다중 샷 애니메이션 평가를 위해 특별히 설계된 첫 번째 프레임워크로, 각 클립을 이전 및 이후 클립과의 맥락에서 고려하여 스토리 수준의 일관성, 액션 완료도, 애니메이션 특유의 특징 등 중요한 측면을 평가합니다. 실험 결과, AniMaker는 VBench 및 우리가 제안한 AniEval 프레임워크를 포함한 인기 지표에서 우수한 품질을 달성했으며, 다중 후보 생성의 효율성을 크게 개선하여 AI 생성 스토리텔링 애니메이션을 프로덕션 수준에 더 가깝게 끌어올렸습니다.
우리는 Mistral의 첫 번째 추론 모델인 Magistral과 우리만의 확장 가능한 강화 학습(RL) 파이프라인을 소개한다. 기존 구현과 이전 모델에서 추출된 RL 트레이스를 의존하는 대신, 우리는 전적으로 우리만의 모델과 인프라에 기반한 초기부터의 접근 방식을 따랐다. 특히, 우리는 순수 RL 훈련의 한계를 탐구할 수 있게 해주는 스택을 보여주고, 모델의 추론 언어를 강제하는 간단한 방법을 제시하며, 텍스트 데이터만으로 RL을 수행해도 초기 체크포인트의 대부분의 능력을 유지할 수 있음을 보여준다. 우리는 텍스트에 대한 RL이 다중 모드 이해, 명령어 수행 및 함수 호출을 유지하거나 개선한다는 것을 발견했다. 우리는 Mistral Medium 3 위에서 RL만으로 추론을 위해 훈련된 Magistral Medium을 제시하고, Magistral Medium의 콜드 스타트 데이터를 추가로 포함한 Magistral Small(Apache 2.0)을 오픈소스로 공개한다.
이산 오디오 토큰은 지각적 품질, 음성 내용, 화자 특성을 보존하면서도 효율적인 저장 및 추론, 그리고 다양한 다운스트림 작업에서 경쟁력 있는 성능을 가능하게 하는 간결한 표현입니다. 이는 연속적 특성에 대한 실용적인 대안을 제공함으로써 음성 및 오디오를 현대의 대규모 언어 모델(LLMs)에 통합할 수 있게 합니다. 토큰 기반 오디오 처리에 대한 관심이 증가함에 따라 다양한 토큰화 방법이 등장했으며, 여러 연구가 이 분야의 최신 동향을 검토했습니다. 그러나 기존 연구들은 특정 도메인이나 작업에 초점을 맞추는 경우가 많아 다양한 벤치마크에 걸친 통일된 비교가 부족합니다. 본 논문은 음성, 음악, 일반 오디오 세 가지 도메인을 아우르는 이산 오디오 토크나이저에 대한 체계적인 리뷰와 벤치마크를 제시합니다. 우리는 인코더-디코더, 양자화 기술, 훈련 패러다임, 스트리밍 가능성, 응용 도메인을 기반으로 토큰화 접근법의 분류 체계를 제안합니다. 복원, 다운스트림 성능, 음향 언어 모델링을 위한 여러 벤치마크에서 토크나이저를 평가하고, 통제된 절제 연구를 통해 트레이드오프를 분석합니다. 우리의 연구 결과는 주요 한계, 실용적 고려 사항, 그리고 미해결 과제를 강조하며, 이 빠르게 진화하는 분야의 미래 연구를 위한 통찰과 지침을 제공합니다. 주요 결과 및 토크나이저 데이터베이스를 포함한 더 많은 정보는 저희 웹사이트(https://poonehmousavi.github.io/dates-website/)를 참조하십시오.
본 논문에서는 데이터셋을 여러 메타 도메인의 선형 결합으로 분해하는 새로운 접근법인 Domain2Vec을 소개한다. 메타 도메인은 데이터셋의 핵심적인 특성을 포착하기 위해 설계된 새로운 개념이다. Domain2Vec은 메타 도메인의 어휘를 유지하며, 주어진 데이터셋을 이 어휘에 대한 분포에 해당하는 도메인 벡터로 분해하기 위해 분류기를 사용한다. 이러한 도메인 벡터는 \textbf{분포 정렬 가정}(DA^{2}) 하에서 학습 없이도 언어 모델(LM) 사전 학습을 위한 최적의 데이터 혼합을 식별할 수 있게 해준다. 이 가정은 훈련 세트와 검증 세트의 데이터 분포가 더 잘 정렬될수록 더 낮은 검증 손실이 달성된다는 것을 제안한다. 또한, Domain2Vec은 이전 연구에 원활하게 통합되어 도메인 벡터와 LM 성능 간의 관계를 모델링함으로써 이전 방법의 효율성과 확장성을 크게 향상시킬 수 있다. 광범위한 실험을 통해 Domain2Vec이 최소한의 계산 오버헤드로 하위 작업 성능을 향상시키는 데이터 혼합을 찾는 데 도움이 된다는 것을 입증하였다. 구체적으로, Domain2Vec은 Pile 데이터셋의 원래 혼합으로 훈련할 때 필요한 계산량의 51.5%만 사용하여 Pile-CC에서 동일한 검증 손실을 달성한다. 동일한 계산 예산 하에서 Domain2Vec은 하위 작업 성능을 평균 2.83% 향상시킨다.
최근, 다중 모달 대형 언어 모델(MLLM)을 기반으로 한 에이전트들이 다양한 분야에서 주목할 만한 진전을 이루어냈다. 그러나 Minecraft와 같은 개방형 환경에서 지각, 계획, 행동, 근거화, 반성 등의 능력을 갖춘 일반적인 에이전트를 구축하는 것은 여전히 도메인 특화 데이터의 부족, 이질적 작업 간의 간섭, 개방형 환경에서의 시각적 다양성과 같은 과제로 남아 있다. 본 논문에서는 이러한 과제를 해결하기 위해 세 가지 주요 기여를 제안한다. 1) 에이전트 개발을 위한 확장 가능하고 고품질의 훈련 데이터를 제공하기 위해 지식 강화 데이터 생성 파이프라인을 제안한다. 2) 이질적 작업 간의 간섭을 완화하기 위해 작업 수준 라우팅을 갖춘 Mixture-of-Experts(MoE) 아키텍처를 도입한다. 3) Minecraft에서의 시각적 다양성에 대한 에이전트의 추론 능력을 강화하기 위해 다중 모달 추론 강화 강화 학습 접근법을 개발한다. 이러한 혁신을 바탕으로, Minecraft를 위한 범용 에이전트인 Optimus-3을 제시한다. 광범위한 실험 결과는 Optimus-3이 Minecraft 환경에서의 다양한 작업에서 일반적인 다중 모달 대형 언어 모델과 기존의 최첨단 에이전트들을 능가함을 보여준다. 프로젝트 페이지: https://cybertronagent.github.io/Optimus-3.github.io/
미학적으로 뛰어난 포스터를 생성하는 것은 단순한 디자인 이미지를 만드는 것보다 더 어려운 과제입니다. 이는 정확한 텍스트 렌더링뿐만 아니라 추상적인 예술적 콘텐츠, 인상적인 레이아웃, 그리고 전반적인 스타일의 조화를 원활하게 통합해야 하기 때문입니다. 이를 해결하기 위해 우리는 기존의 모듈식 파이프라인과 경직된 사전 정의된 레이아웃을 버리고, 모델이 일관성 있고 시각적으로 매력적인 구성을 자유롭게 탐색할 수 있도록 하는 통합 프레임워크인 PosterCraft를 제안합니다. PosterCraft는 고품질 포스터 생성을 최적화하기 위해 신중하게 설계된 캐스케이드 워크플로우를 사용합니다: (i) 새로 도입된 Text-Render-2M 데이터셋을 통한 대규모 텍스트 렌더링 최적화; (ii) HQ-Poster100K를 통한 지역 인식 지도 미세 조정; (iii) best-of-n 선호 최적화를 통한 미학적 텍스트 강화 학습; 그리고 (iv) 시각-언어 피드백을 통한 공동 정제. 각 단계는 특정 요구에 맞춰 완전히 자동화된 데이터 구축 파이프라인으로 지원되어 복잡한 아키텍처 수정 없이도 강력한 학습이 가능합니다. 다양한 실험을 통해 평가된 PosterCraft는 렌더링 정확도, 레이아웃 일관성, 그리고 전반적인 시각적 매력 면에서 오픈소스 기준선을 크게 능가하며, 최신 상용 시스템의 품질에 근접합니다. 우리의 코드, 모델, 그리고 데이터셋은 프로젝트 페이지에서 확인할 수 있습니다: https://ephemeral182.github.io/PosterCraft
언어 모델의 내재적 표현을 활용하여 얼마나 비용 효율적으로 강력한 추론 능력을 이끌어낼 수 있을까? 우리는 이 질문에 Resa라는 1.5B 규모의 추론 모델 패밀리로 답한다. 이 모델은 새로운 효율적인 희소 오토인코더 튜닝(SAE-Tuning) 절차를 통해 학습되었다. 이 방법은 먼저 SAE를 학습시켜 소스 모델의 추론 능력을 포착한 다음, 학습된 SAE를 사용하여 검증된 질문-답변 데이터만을 활용해 표준 지도 미세 조정 과정을 통해 타겟 모델에서 이러한 능력을 이끌어낸다. 특히, 추가 RL 사후 학습 전 특정 기본 모델에 적용할 경우, SAE-Tuning은 RL 학습 대비 모델의 추론 성능을 97% 이상 유지하면서도 학습 비용을 2000배 이상 절감하여 약 \$1로, 학습 시간을 450배 이상 단축하여 약 20분으로 줄인다. 또한, 가볍게 RL 학습된 모델(예: 2개의 GPU에서 1시간 이내)에 적용할 경우, 약 1의 추가 비용만으로 AIME24에서 43.33% Pass@1, AMC23에서 90% Pass@1와 같은 추론 성능을 달성한다. 놀랍게도, SAE를 통해 추출된 추론 능력은 일반화 가능하고 모듈화될 가능성이 있다. 일반화는 하나의 데이터셋에서 추출된 능력이 더 크고 중복된 코퍼스에서도 성능을 향상시킨다는 것을 의미한다. 모듈화는 Qwen 또는 Qwen-Math에서 추출된 능력을 테스트 시 R1-Distill 모델에 추가 학습 없이 부착할 수 있으며, 이는 비슷한 성능 향상을 가져온다는 것을 의미한다. 광범위한 실험을 통해 이러한 발견을 검증하였으며, 모든 아티팩트는 완전히 오픈소스로 공개되었다.
우리는 이미지, 텍스트, 오디오, 비디오를 처리할 수 있는 통합 멀티모달 모델인 Ming-Omni를 제안하며, 이 모델은 음성 및 이미지 생성에서도 뛰어난 성능을 보입니다. Ming-Omni는 각기 다른 모달리티에서 토큰을 추출하기 위해 전용 인코더를 사용하며, 이 토큰들은 새롭게 제안된 모달리티 특화 라우터를 갖춘 MoE(Mixture of Experts) 아키텍처인 Ling에 의해 처리됩니다. 이 설계는 단일 모델이 통합 프레임워크 내에서 멀티모달 입력을 효율적으로 처리하고 융합할 수 있게 하여, 별도의 모델이나 작업별 미세 조정, 구조적 재설계 없이도 다양한 작업을 수행할 수 있도록 합니다. 특히, Ming-Omni는 기존의 멀티모달 모델을 넘어 오디오와 이미지 생성을 지원합니다. 이는 자연스러운 음성 생성을 위한 고급 오디오 디코더와 고품질 이미지 생성을 위한 Ming-Lite-Uni의 통합을 통해 달성되며, 이를 통해 모델은 상황 인지 채팅, 텍스트-음성 변환, 다양한 이미지 편집 작업을 수행할 수 있습니다. 실험 결과는 Ming-Omni가 모든 모달리티에 걸친 통합 인식 및 생성에 대한 강력한 솔루션을 제공함을 보여줍니다. 특히, 우리가 제안한 Ming-Omni는 GPT-4o와 동등한 모달리티 지원을 제공하는 최초의 오픈소스 모델로, 커뮤니티의 추가 연구 및 개발을 촉진하기 위해 모든 코드와 모델 가중치를 공개합니다.
대형 언어 모델(LLM) 에이전트는 현실 세계의 데이터 과학 문제를 해결하는 데 있어 큰 잠재력을 보여주고 있습니다. LLM 기반 데이터 과학 에이전트는 전체 머신러닝 파이프라인을 자동화할 가능성을 제시하지만, 실제 환경에서의 효과성은 여전히 제한적입니다. 기존 프레임워크는 경직된 사전 정의된 워크플로우와 유연성이 부족한 코딩 전략에 의존하고 있으며, 이로 인해 비교적 단순하고 전통적인 문제에서는 뛰어난 성능을 보이지만, 복잡하고 혁신적인 작업에서 인간 전문가가 제공하는 경험적 전문성을 충분히 반영하지 못합니다. 본 연구에서는 이러한 한계를 극복하기 위해 세 가지 주요 혁신을 도입한 적응형 지식 기반 LLM 에이전트 프레임워크인 AutoMind를 소개합니다: (1) 도메인 전문가 지식을 기반으로 에이전트를 지원하는 선별된 전문 지식 베이스, (2) 가능한 솔루션을 전략적으로 탐색하는 에이전트 기반 지식 트리 탐색 알고리즘, (3) 작업 복잡도에 따라 동적으로 코드 생성을 조정하는 자체 적응형 코딩 전략. 두 가지 자동화된 데이터 과학 벤치마크에서의 평가 결과, AutoMind는 최신 베이스라인 대비 우수한 성능을 보여주었습니다. 추가 분석을 통해 효과성, 효율성, 그리고 질적 솔루션 품질에서 유리한 결과를 확인하였으며, 이는 AutoMind가 완전 자동화된 데이터 과학을 향한 효율적이고 견고한 한 걸음임을 강조합니다.
긴 비디오 이해(Long Video Understanding, LVU)는 작업의 본질적인 복잡성과 컨텍스트 윈도우 제약으로 인해 현재의 다중 모달 대형 언어 모델(Multi-modal Large Language Models, MLLMs)에게 상당한 도전 과제로 여겨집니다. 일반적으로 LVU 작업을 해결하기 위해서는 확장된 컨텍스트 윈도우, 강력한 시각 인식 능력, 그리고 숙련된 도메인 전문성을 갖춘 기반 MLLMs가 필요하다고 널리 알려져 있습니다. 본 연구에서는 이러한 일반적인 믿음에 도전하며, 긴 비디오 이해를 위한 새로운 에이전트 기반 프레임워크인 VideoDeepResearch를 소개합니다. 우리의 접근 방식은 텍스트 전용 대형 추론 모델(Large Reasoning Model, LRM)과 다중 모달 툴킷(다중 모달 검색기 및 시각 인식기 등)을 결합한 것으로, 이 모든 것은 실제로 쉽게 사용 가능합니다. 각 LVU 작업에 대해 시스템은 추론을 통해 문제 해결 전략을 수립하고, 도구 사용을 통해 필수적인 비디오 콘텐츠를 선택적으로 접근 및 활용합니다. 우리는 MLVU, Video-MME, LVBench 등 인기 있는 LVU 벤치마크에서 광범위한 실험을 수행했습니다. 실험 결과, VideoDeepResearch는 기존 MLLM 베이스라인을 크게 개선하며, 이전의 최첨단 기술을 MLVU(테스트), LVBench, LongVideoBench에서 각각 9.6%, 6.6%, 3.9% 앞섰습니다. 이러한 결과는 LVU 문제의 주요 과제를 극복하는 데 있어 에이전트 시스템의 잠재력을 강조합니다.
그래픽 디자인은 상업적 및 개인적 맥락에서 중요한 역할을 하지만, 고품질의 편집 가능하며 미적으로 매력적인 그래픽 작품을 만드는 것은 여전히 시간이 많이 들고 기술이 필요한 작업이며, 특히 초보자에게는 더욱 그렇습니다. 현재의 AI 도구들은 워크플로우의 일부를 자동화하지만, 사용자가 제공한 자산을 정확하게 통합하고 편집 가능성을 유지하며 전문적인 시각적 매력을 달성하는 데 어려움을 겪습니다. Canva Magic Design과 같은 상용 시스템은 방대한 템플릿 라이브러리에 의존하는데, 이를 복제하는 것은 비현실적입니다. 본 논문에서는 선택적인 자연어 지시 또는 자산으로부터 편집 가능한 다중 레이어 작품을 생성하는 CreatiPoster 프레임워크를 소개합니다. 프로토콜 모델인 RGBA 대형 멀티모달 모델은 먼저 각 레이어(텍스트 또는 자산)의 정확한 레이아웃, 계층 구조, 내용 및 스타일을 포함한 JSON 사양과 간결한 배경 프롬프트를 생성합니다. 조건부 배경 모델은 이렇게 렌더링된 전경 레이어를 기반으로 일관된 배경을 합성합니다. 우리는 그래픽 디자인 생성을 위한 자동화된 메트릭을 포함한 벤치마크를 구축하고, CreatiPoster가 주요 오픈소스 접근 방식과 상용 시스템을 능가함을 보여줍니다. 추가 연구를 촉진하기 위해 10만 개의 다중 레이어 디자인으로 구성된 저작권 없는 코퍼스를 공개합니다. CreatiPoster는 캔버스 편집, 텍스트 오버레이, 반응형 크기 조정, 다국어 적응, 애니메이션 포스터 등 다양한 응용 프로그램을 지원하며, AI 지원 그래픽 디자인의 민주화를 앞당깁니다. 프로젝트 홈페이지: https://github.com/graphic-design-ai/creatiposter
대규모 언어 모델(LLMs)은 자동화된 유해 콘텐츠 탐지 작업에 점점 더 많이 적용되며, 관리자들이 정책 위반 사항을 식별하고 콘텐츠 검토의 전반적인 효율성과 정확성을 개선하는 데 도움을 주고 있습니다. 그러나 현재 유해 콘텐츠 탐지를 위한 리소스는 주로 영어에 초점이 맞춰져 있으며, 중국어 데이터셋은 여전히 부족하고 종종 범위가 제한적입니다. 본 연구에서는 중국어 콘텐츠 유해성 탐지를 위한 포괄적이고 전문적으로 주석이 달린 벤치마크를 제시합니다. 이 벤치마크는 6개의 대표적인 범주를 다루며, 전적으로 실세계 데이터로 구성되었습니다. 우리의 주석 프로세스는 또한 중국어 유해 콘텐츠 탐지를 위해 LLMs에 명시적인 전문가 지식을 제공하는 지식 규칙 기반을 산출합니다. 추가적으로, 우리는 인간이 주석을 단 지식 규칙과 대규모 언어 모델의 암묵적 지식을 통합한 지식 증강 기반선을 제안합니다. 이를 통해 더 작은 모델들이 최첨단 LLMs에 필적하는 성능을 달성할 수 있게 합니다. 코드와 데이터는 https://github.com/zjunlp/ChineseHarm-bench에서 확인할 수 있습니다.
최근 대규모 언어 모델(LLMs)과 멀티모달 대응 모델의 발전으로 웹 환경 내에서 자율적으로 탐색하고 작업을 완료할 수 있는 AI 시스템인 웹 에이전트 개발에 대한 관심이 크게 증가했습니다. 복잡한 웹 상호작용을 자동화할 수 있는 엄청난 잠재력을 지니고 있음에도 불구하고, 현재의 접근 방식은 인간 중심으로 설계된 인터페이스와 LLM의 능력 간의 근본적인 불일치로 인해 상당한 어려움에 직면하고 있습니다. 현재의 방법들은 방대한 DOM 트리 처리, 추가 정보가 포함된 스크린샷에 의존, 또는 API 상호작용을 통해 사용자 인터페이스를 완전히 우회하는 등 웹 입력의 본질적인 복잡성에 대처하는 데 어려움을 겪고 있습니다. 이 포지션 논문은 웹 에이전트 연구의 패러다임 전환을 주장합니다: 인간을 위해 설계된 인터페이스에 웹 에이전트를 적응시키기보다는, 에이전트의 능력에 최적화된 새로운 상호작용 패러다임을 개발해야 한다는 것입니다. 이를 위해, 우리는 에이전트가 웹사이트를 탐색할 수 있도록 특별히 설계된 인터페이스인 에이전틱 웹 인터페이스(AWI) 개념을 소개합니다. 우리는 AWI 설계를 위한 여섯 가지 지침 원칙을 제시하며, 안전성, 효율성, 표준화를 강조하여 모든 주요 이해관계자의 이익을 고려합니다. 이 재구성은 기존 인터페이스의 근본적인 한계를 극복하고, 더 효율적이고 신뢰할 수 있으며 투명한 웹 에이전트 설계를 위한 길을 열어줄 것입니다. 이는 더 넓은 머신러닝 커뮤니티가 참여하는 협력적 노력이 될 것입니다.
이미지 이해와 생성을 통합한 멀티모달 기반 모델의 최근 발전은 단일 프레임워크 내에서 다양한 시각-언어 작업을 해결할 수 있는 흥미로운 가능성을 열어주었습니다. 그러나 기존의 통합 모델들은 일반적으로 광범위한 사전 학습이 필요하며, 각 작업에 특화된 모델들과 동일한 수준의 성능을 달성하는 데 어려움을 겪습니다. 또한, 이러한 모델들 중 다수는 느린 이미지 생성 속도로 인해 실시간 또는 자원이 제한된 환경에서의 실제 배포가 제한됩니다. 본 연구에서는 이미지 이해와 생성을 단일 멀티모달 모델 내에서 통합하는 새로운 효율적인 아키텍처인 Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow)를 제안합니다. LaTtE-Flow는 강력한 사전 학습된 시각-언어 모델(VLMs)을 기반으로 하여 강력한 멀티모달 이해 능력을 상속받고, 이를 효율적인 이미지 생성을 위한 새로운 Layerwise Timestep Experts flow-based 아키텍처로 확장합니다. LaTtE-Flow는 플로우 매칭 프로세스를 특화된 Transformer 레이어 그룹들에 분산시켜, 각 그룹이 특정 시간 단계의 하위 집합을 담당하도록 설계되었습니다. 이 설계는 각 샘플링 시간 단계에서 소수의 레이어만 활성화함으로써 샘플링 효율성을 크게 향상시킵니다. 성능을 더욱 향상시키기 위해, 우리는 레이어 간 효율적인 정보 재사용을 위한 Timestep-Conditioned Residual Attention 메커니즘을 제안합니다. 실험 결과, LaTtE-Flow는 멀티모달 이해 작업에서 강력한 성능을 달성하는 동시에, 최근의 통합 멀티모달 모델들과 비교하여 약 6배 빠른 추론 속도로 경쟁력 있는 이미지 생성 품질을 달성함을 보여줍니다.
미세 조정(Fine-Tuning, FT)이 대규모로 적용하기 어려워짐에 따라, 자기 지도 학습(Self-Supervised Learning, SSL)의 평가 프로토콜로 프로빙(probing)이 선호되는 추세이다. 그러나 표준 선형 프로빙(Linear Probing, LP)은 패치 토큰의 분산적 특성으로 인해 마스크 이미지 모델링(Masked Image Modeling, MIM)으로 학습된 모델의 잠재력을 충분히 반영하지 못한다. 이는 주의 집중 프로빙(attentive probing)의 필요성을 부각시키는데, 이 방법은 주의 메커니즘을 사용하여 패치 수준의 특징을 선택적으로 집계한다. 주의 집중 프로빙이 점차 채택되고 있음에도 불구하고, 이 방법은 여전히 충분히 탐구되지 않았으며, 기존 방법들은 과도한 매개변수화와 낮은 계산 효율성으로 인해 어려움을 겪고 있다. 본 연구에서는 정확도-효율성 트레이드오프의 관점에서 주의 집중 프로빙을 재검토한다. 기존 방법들의 메커니즘을 분석하고 성능을 벤치마킹하는 체계적인 연구를 수행한다. 이를 통해 중복 투영을 제거하고 학습 가능한 매개변수의 수를 줄이며, 기존의 다중 헤드 주의(multi-head attention) 방식에 비해 최대 10배의 속도 향상을 달성하는 다중 쿼리 교차 주의(multi-query cross-attention) 메커니즘인 효율적 프로빙(Efficient Probing, EP)을 제안한다. EP는 단순함에도 불구하고, 7개의 벤치마크에서 LP 및 기존의 주의 집중 프로빙 접근법을 능가하며, MIM을 넘어 다양한 사전 학습 패러다임에서도 잘 일반화되고, 해석 가능한 주의 맵을 생성하며, 저샷(low-shot) 및 계층별(layer-wise) 설정에서도 강력한 성능 향상을 달성한다. 코드는 https://github.com/billpsomas/efficient-probing에서 확인할 수 있다.
검증 가능한 보상을 통한 강화 학습(RLVR)은 대규모 언어 모델(LLM)을 향상시키는 핵심 기술로 자리 잡았으며, 검증 엔지니어링이 중심적인 역할을 하고 있다. 그러나 명령어 수행을 위한 강화 학습의 최적의 실천 방법은 아직 충분히 탐구되지 않았다. 본 연구에서는 명령어 수행을 위한 강화 학습에서의 검증 문제를 탐구하고, 규칙 기반 코드 검증과 대형 추론 모델(예: QwQ-32B) 기반의 LLM 검증을 결합한 검증 방법인 VerIF를 제안한다. 이를 지원하기 위해, 약 22,000개의 인스턴스와 관련 검증 신호를 포함한 고품질 명령어 수행 데이터셋인 VerInstruct를 구축하였다. VerIF를 적용한 강화 학습을 두 모델에 적용하여, 여러 대표적인 명령어 수행 벤치마크에서 상당한 개선을 달성하였다. 훈련된 모델들은 동일 규모의 모델들 중 최고 수준의 성능을 보였으며, 보이지 않는 제약 조건에도 잘 일반화되었다. 또한, 이들의 일반적인 능력이 영향을 받지 않았음을 관찰하여, VerIF를 통한 강화 학습이 기존의 강화 학습 레시피에 통합되어 전반적인 모델 성능을 향상시킬 수 있음을 시사한다. 향후 연구를 촉진하기 위해 데이터셋, 코드, 모델을 https://github.com/THU-KEG/VerIF에서 공개하였다.
Shojaee 등(2025)은 대형 추론 모델(Large Reasoning Models, LRMs)이 특정 복잡성 임계값을 넘는 계획 퍼즐에서 "정확도 붕괴(accuracy collapse)" 현상을 보인다고 보고하였다. 본 연구에서는 그들의 연구 결과가 근본적인 추론 실패보다는 실험 설계의 한계를 주로 반영하고 있음을 입증한다. 우리의 분석은 세 가지 중요한 문제를 밝혀냈다: (1) 하노이의 탑(Tower of Hanoi) 실험에서 보고된 실패 지점들은 모델 출력 토큰 한계를 체계적으로 초과하며, 모델들은 이러한 제약을 출력에서 명시적으로 인지하고 있다; (2) 저자들의 자동화된 평가 프레임워크는 추론 실패와 실질적 제약을 구분하지 못해 모델 능력을 오분류하고 있다; (3) 가장 우려되는 점은, 강 건너기(River Crossing) 벤치마크에서 N > 5인 경우 보트 용량 부족으로 수학적으로 불가능한 사례가 포함되어 있음에도 불구하고, 모델들이 이러한 해결 불가능한 문제를 풀지 못했다는 이유로 실패로 평가되었다는 것이다. 이러한 실험적 오류를 통제하기 위해, 우리는 종합적인 이동 목록 대신 생성 함수를 요청하는 방식으로 실험을 재설계하였고, 여러 모델에 대한 예비 실험 결과 이전에 완전한 실패로 보고된 하노이의 탑 사례에서 높은 정확도를 보였다. 이러한 연구 결과는 AI 추론 능력을 평가할 때 신중한 실험 설계의 중요성을 강조한다.
전자상거래와 디지털 마케팅 분야에서, 고품질의 인간-제품 시연 비디오를 생성하는 것은 효과적인 제품 프레젠테이션에 중요합니다. 그러나 대부분의 기존 프레임워크는 인간과 제품의 정체성을 모두 보존하지 못하거나 인간-제품 공간 관계에 대한 이해가 부족하여 비현실적인 표현과 부자연스러운 상호작용을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 Diffusion Transformer(DiT) 기반 프레임워크를 제안합니다. 우리의 방법은 짝을 이루는 인간-제품 참조 정보를 주입하고 추가적인 마스크 교차 주의 메커니즘을 활용함으로써 인간의 정체성과 로고 및 질감과 같은 제품별 세부 사항을 동시에 보존합니다. 우리는 3D 신체 메시 템플릿과 제품 경계 상자를 사용하여 정확한 동작 가이드를 제공함으로써 손동작과 제품 배치를 직관적으로 정렬할 수 있도록 합니다. 또한, 구조화된 텍스트 인코딩을 사용하여 카테고리 수준의 의미를 통합함으로써 프레임 간의 작은 회전 변화 동안 3D 일관성을 강화합니다. 광범위한 데이터 증강 전략을 적용한 하이브리드 데이터셋으로 학습된 우리의 접근 방식은 인간과 제품의 정체성 무결성을 유지하고 현실적인 시연 동작을 생성하는 데 있어 최신 기술을 능가합니다. 프로젝트 페이지: https://submit2025-dream.github.io/DreamActor-H1/.
포인트 클라우드 데이터의 스케일 다양성은 3D 비전을 위한 통합 표현 학습 기술 개발에 상당한 도전 과제를 제시합니다. 현재, 통합된 3D 모델은 거의 없으며, 객체 수준과 장면 수준의 포인트 클라우드 모두에 동등하게 효과적인 사전 학습 방법은 존재하지 않습니다. 본 논문에서는 어떠한 스케일의 포인트 클라우드와 어떠한 아키텍처의 3D 모델에도 원활하게 적용할 수 있는 최초의 통합 사전 학습 방법인 UniPre3D를 소개합니다. 우리의 접근 방식은 사전 학습 작업으로 가우시안 프리미티브를 예측하고, 미분 가능한 가우시안 스플래팅을 사용하여 이미지를 렌더링함으로써 정밀한 픽셀 수준의 지도와 종단 간 최적화를 가능하게 합니다. 사전 학습 작업의 복잡성을 더욱 규제하고 모델의 초점을 기하학적 구조로 유도하기 위해, 사전 학습된 이미지 모델의 2D 특징을 통합하여 잘 확립된 텍스처 지식을 포함시킵니다. 다양한 객체 및 장면 수준의 작업에 대해 다양한 포인트 클라우드 모델을 백본으로 사용하여 제안된 방법의 보편적 효과를 광범위한 실험을 통해 검증합니다. 코드는 https://github.com/wangzy22/UniPre3D에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)과 AI 시스템의 최근 발전은 복잡한 AI 워크플로우의 설계 및 최적화에 있어 패러다임 전환을 가져왔다. 다중 구성 요소를 통합함으로써, 복합 AI 시스템은 정교한 작업을 수행하는 데 점점 더 능숙해지고 있다. 그러나 이러한 시스템이 복잡성에서 성장함에 따라, 개별 구성 요소뿐만 아니라 그들 간의 상호작용을 최적화하는 데 새로운 도전 과제가 대두되고 있다. 지도 미세 조정(SFT) 및 강화 학습(RL)과 같은 전통적인 최적화 방법이 여전히 기초를 이루고 있지만, 자연어 피드백의 등장은 특히 미분 불가능한 시스템을 최적화하는 데 있어 유망한 새로운 접근 방식을 소개한다. 본 논문은 수치 기반 및 언어 기반 기법을 포괄하여 복합 AI 시스템 최적화의 최근 진전을 체계적으로 검토한다. 우리는 복합 AI 시스템 최적화의 개념을 공식화하고, 기존 방법을 여러 주요 차원에 따라 분류하며, 이 빠르게 진화하는 분야에서의 개방형 연구 과제와 미래 방향을 강조한다. 조사된 논문 목록은 https://github.com/MiuLab/AISysOpt-Survey에서 공개적으로 확인할 수 있다.
대규모 언어 모델은 자연어 처리 분야를 혁신적으로 변화시켰지만, 지도 미세 조정(SFT)은 여전히 계산적으로 많은 비용이 듭니다. 본 논문은 이상적인 가정 하에서(무한한 계산 자원과 미세 조정 데이터셋에 대한 접근 가능성을 포함), 모델 파라미터를 변경하지 않고도 추론 시점 기법, 특히 문맥 내 학습(ICL)을 통해 SFT를 통해 획득한 능력을 기본 트랜스포머 모델로 근사할 수 있음을 이론적으로 증명합니다. 또한 이러한 결과를 유한한 문맥 길이와 부분적인 데이터셋 접근이 가능한 실제 시나리오로 확장합니다. 고정된 출력 길이 l을 가지는 텍스트 생성 작업의 경우, 크기 Oleft( m V{varepsilon^2} log m{delta} right)의 데이터셋 또는 제한된 문맥 하에서 Oleft( l log V{varepsilon^2} log 1{delta} right)의 데이터셋이 m개의 문맥에서 오차 varepsilon 이내로 미세 조정된 동작을 근사하기에 충분합니다. 여기서 V는 어휘 크기이고 delta는 실패 확률입니다. 선형 분류의 경우, 크기 Oleft( d{varepsilon} right)의 데이터셋 또는 고정된 문맥 하에서 Oleft( 1{varepsilon^2} log 1{delta} right)의 데이터셋이 충분하며, 여기서 d는 입력 차원입니다. 트랜스포머의 튜링 완전성에 기반한 이러한 결과는 대규모 언어 모델의 자원 효율적인 배포를 위한 이론적 기반을 제공하며, 검색 증강 생성과 같은 실용적인 기법을 통해 이론을 실제 응용으로 연결합니다.
대형 언어 모델(LLMs)이 점점 더 인간과 유사한 방향으로 발전하고 인간-AI 간의 커뮤니케이션이 보편화되면서, 프롬프팅(prompting)이 결정적인 요소로 부상했습니다. 그러나 자연어 프롬프트를 정확히 무엇이 평가하는지에 대한 개념적 합의는 제한적입니다. 우리는 이 질문을 해결하기 위해 2022년부터 2025년까지 주요 NLP 및 AI 컨퍼런스와 블로그에서 발표된 150편 이상의 프롬프팅 관련 논문을 메타 분석했습니다. 우리는 프롬프트 품질을 평가하기 위한 속성 중심적이고 인간 중심적인 프레임워크를 제안하며, 여기에는 6개 차원으로 분류된 21가지 속성이 포함됩니다. 그런 다음 기존 연구가 이러한 속성이 LLMs에 미치는 영향을 어떻게 평가하는지 살펴보고, 모델과 작업 간의 불균형적인 지원과 상당한 연구 격차를 밝혀냈습니다. 또한, 고품질 자연어 프롬프트에서 속성 간의 상관관계를 분석하여 프롬프팅 권장 사항을 도출했습니다. 그런 다음 추론 작업에서 다중 속성 프롬프트 개선을 실증적으로 탐구한 결과, 단일 속성 개선이 종종 가장 큰 영향을 미치는 것을 관찰했습니다. 마지막으로, 속성이 강화된 프롬프트에 대한 지시 튜닝(instruction-tuning)이 더 나은 추론 모델을 만들어낼 수 있음을 발견했습니다. 우리의 연구 결과는 속성 중심의 프롬프트 평가와 최적화를 위한 기반을 마련하며, 인간-AI 커뮤니케이션 간의 격차를 해소하고 새로운 프롬프팅 연구 방향을 열어줍니다.
통신 분야에서 인공지능의 도입이 증가함에 따라, 대형 언어 모델(LLM)이 도메인 특화적이고 수학적으로 복잡한 과제를 해결할 수 있는 능력에 대한 관심이 높아지고 있다. 최근의 발전으로 인해 LLM의 일반적인 수학적 추론 성능은 향상되었지만, 신호 처리, 네트워크 최적화, 성능 분석과 같은 특화된 분야에서의 효과성은 여전히 크게 탐구되지 않고 있다. 이러한 격차를 해결하기 위해, 우리는 통신 분야에서 수치적 해법을 요구하는 수학적 문제를 해결하는 LLM의 성능을 평가하기 위해 특별히 설계된 첫 번째 벤치마크 데이터셋인 TeleMath를 소개한다. 500개의 질문-답변(QnA) 쌍으로 구성된 TeleMath는 통신 분야의 다양한 주제를 포괄한다. 본 논문은 주제 전문가가 제작한 문제 씨앗에서 시작하여 제안된 QnA 생성 파이프라인을 개괄한다. 다양한 오픈소스 LLM의 평가 결과, 수학적 또는 논리적 추론을 위해 명시적으로 설계된 최신 모델들이 TeleMath에서 최고의 성능을 달성한 반면, 대규모 매개변수를 가진 일반 목적 모델들은 이러한 도전에 종종 어려움을 겪는 것으로 나타났다. 우리는 결과의 재현성을 용이하게 하고 향후 연구를 지원하기 위해 데이터셋과 평가 코드를 공개하였다.
대형 언어 모델(LLM)의 언러닝(Unlearning)은 모델 내의 바람직하지 않은 지식을 삭제하거나 억제하여 유해하거나 개인적인 정보의 오용을 방지하고자 하는 목표를 가지고 있다. 그러나 최근 연구들은 실제 시나리오에서의 효과가 제한적이며, 이로 인해 실질적인 적용이 어려움을 지적하고 있다. 본 연구에서는 이러한 하위 작업 실패의 근본적인 문제로 기존 언러닝 방법의 효과가 훈련 샘플의 형태에 크게 의존하며, 동일한 지식의 다양한 표현에 일반화되지 못하는 현상을 확인하였다. 우리는 이 문제를 '형태 의존적 편향(Form-Dependent Bias)'으로 정의하고, 다양한 하위 작업에서의 구체적인 발현 패턴을 체계적으로 조사하였다. 이 편향의 보편성을 정량화하고 향후 연구를 지원하기 위해, 지식 표현의 변이에 대한 언러닝 방법의 견고성을 평가하는 새로운 벤치마크인 ORT를 도입하였다. 실험 결과, 현재의 기술들 사이에서 형태 의존적 편향이 광범위하고 심각하게 존재함이 밝혀졌다. 우리는 실제 보안 중심 시나리오에서 마주치는 무수한 하위 작업의 형태를 고려할 때, LLM 언러닝은 형태에 독립적이어야 한다고 주장한다. 이를 위해, 우리는 순위-1 개념 재지향(Rank-one Concept Redirection, ROCR)이라는 새로운 훈련-프리 방법을 제안하며, 이를 유망한 해결책으로 제시한다. ROCR은 하위 작업에서의 불변량, 특히 활성화된 위험한 개념을 대상으로 언러닝을 수행한다. 이 방법은 모델 파라미터를 수 초 내에 수정하여 특정 언러닝 대상 개념을 무해한 다른 개념으로 재지향할 수 있다. 광범위한 실험을 통해 ROCR이 기존 방법에 비해 언러닝 효과를 크게 향상시키면서도 매우 자연스러운 출력을 생성함을 입증하였다.
최근 확산 모델(diffusion models)의 지도 방법은 모델을 교란하여 암묵적인 약한 모델을 구성하고, 이를 통해 생성 과정을 조절하는 방식으로 역방향 샘플링을 이끌어냅니다. 이러한 접근법 중에서도, 주의 교란(attention perturbation)은 분류자 없는 지도(classifier-free guidance)가 적용되지 않는 무조건적 시나리오에서 강력한 실증적 성능을 보여왔습니다. 그러나 기존의 주의 교란 방법들은 교란이 적용되어야 할 위치를 결정하는 데 있어 체계적인 접근법이 부족하며, 특히 품질과 관련된 계산이 여러 계층에 분산되어 있는 Diffusion Transformer(DiT) 아키텍처에서 이러한 문제가 두드러집니다. 본 논문에서는 주의 교란의 세분화 정도를 계층 수준에서 개별 주의 헤드(attention head) 수준까지 조사하며, 특정 헤드들이 구조, 스타일, 질감 품질과 같은 독특한 시각적 개념을 주도한다는 사실을 발견했습니다. 이러한 통찰을 바탕으로, 우리는 사용자 중심의 목표와 일치하는 주의 헤드를 반복적으로 선택하는 체계적인 프레임워크인 "HeadHunter"를 제안합니다. 이를 통해 생성 품질과 시각적 속성에 대한 세밀한 제어가 가능해집니다. 또한, 우리는 선택된 각 헤드의 주의 맵(attention map)을 항등 행렬(identity matrix) 방향으로 선형 보간하는 SoftPAG를 소개하며, 이를 통해 교란 강도를 연속적으로 조절하고 아티팩트를 억제할 수 있는 방법을 제시합니다. 우리의 접근법은 기존의 계층 수준 교란에서 발생하는 과도한 평활화(oversmoothing) 문제를 완화할 뿐만 아니라, 조합적 헤드 선택을 통해 특정 시각적 스타일을 목표적으로 조작할 수 있게 합니다. 우리는 Stable Diffusion 3와 FLUX.1을 포함한 현대적인 대규모 DiT 기반 텍스트-이미지 모델에서 우리의 방법을 검증하며, 일반적인 품질 향상과 스타일 특화 지도 모두에서 우수한 성능을 입증했습니다. 본 연구는 확산 모델에서 주의 교란에 대한 최초의 헤드 수준 분석을 제공하며, 주의 계층 내에서 해석 가능한 전문화를 밝히고 효과적인 교란 전략의 실용적 설계를 가능하게 합니다.
기계적 해석 가능성(mechanistic interpretability)의 핵심 목표 중 하나는 대규모 언어 모델(LLM)의 출력을 인과적으로 설명할 수 있는 적절한 분석 단위를 식별하는 것이다. 초기 연구는 개별 뉴런에 초점을 맞췄으나, 뉴런이 종종 다중 개념을 인코딩한다는 증거로 인해 활성화 공간에서의 방향 분석으로 전환하게 되었다. 여기서 중요한 질문은 비지도 방식으로 해석 가능한 특징을 포착하는 방향을 어떻게 찾을 것인가이다. 현재의 방법들은 희소 자동인코더(SAE)를 이용한 사전 학습에 의존하며, 주로 잔차 스트림 활성화를 기반으로 방향을 처음부터 학습한다. 그러나 SAE는 인과적 평가에서 어려움을 겪으며, 모델의 계산과 명시적으로 연결되지 않아 본질적인 해석 가능성이 부족하다. 본 연구에서는 이러한 한계를 극복하기 위해 MLP 활성화를 반음수 행렬 분해(SNMF)를 통해 직접 분해하여, 학습된 특징이 (a) 동시 활성화된 뉴런들의 희소 선형 조합이며, (b) 이를 활성화하는 입력에 매핑되어 직접 해석 가능하도록 한다. Llama 3.1, Gemma 2 및 GPT-2에 대한 실험 결과, SNMF에서 도출된 특징들이 SAE와 강력한 지도 학습 기준(difference-in-means)을 능가하며, 인간이 해석 가능한 개념과 일치함을 보여준다. 추가 분석은 특정 뉴런 조합이 의미적으로 관련된 특징들 간에 재사용되며, MLP의 활성화 공간에서 계층적 구조가 드러남을 보여준다. 이러한 결과들은 SNMF가 해석 가능한 특징을 식별하고 LLM의 개념 표현을 분석하는 데 있어 간단하면서도 효과적인 도구임을 입증한다.
대규모 언어 모델을 훈련시키는 것은 일반적으로 고대역폭 상호 연결을 통해 통신하는 수만 개의 가속기로 구성된 클러스터에서 최적화 방법을 통해 이루어집니다. 이러한 클러스터를 확장하는 것은 비용이 많이 들고 비현실적이 될 수 있어, 훈련할 수 있는 모델의 크기에 제한을 가합니다. 최근 몇몇 연구에서는 고도로 연결된 컴퓨팅 클러스터가 필요하지 않도록 통신 집약도가 낮은 훈련 방법을 제안했습니다. 이러한 최신의 저통신 훈련 방법은 여전히 모델 파라미터에 대한 동기화 단계를 사용하며, 이는 모든 모델 복제본에 대해 수행될 때 저대역폭 네트워크에서 비용이 많이 들 수 있습니다. 이 연구에서는 훈련 중에 모든 모델 파라미터를 명시적으로 동기화하지 않아 집합 통신이 필요 없는 새로운 최적화 방법인 NoLoCo를 제안합니다. NoLoCo는 Nesterov 모멘텀 최적화기의 새로운 변형을 통해 무작위로 선택된 다른 모델 가중치와 부분적으로 평균을 내어 모델 가중치를 암묵적으로 동기화합니다. 우리는 제안된 최적화기에 대한 이론적 수렴 분석과 언어 모델 훈련의 실험 결과를 제공합니다. NoLoCo를 125M에서 6.8B 파라미터 사이의 다양한 가속기 수와 모델 크기에서 벤치마크했습니다. 우리의 방법은 완전히 분할된 데이터 병렬 훈련이나 널리 사용되는 저통신 훈련 방법인 DiLoCo보다 훨씬 적은 통신 오버헤드를 요구합니다. 동기화 단계 자체는 인터넷을 통해 수백 개의 가속기를 사용한 DiLoCo의 all-reduce보다 한 차원 빠른 것으로 추정됩니다. 또한 가속기의 유휴 시간을 줄이는 전역 차단 통신이 없습니다. DiLoCo와 비교하여, 다양한 모델 크기와 가속기 수에서 최대 4% 더 빠른 수렴 속도를 관찰했습니다.
과학 분야의 급속한 발전은 과학 문헌을 조직화하고 검색하는 데 있어 도전 과제를 제시한다. 전문가가 주도적으로 구축한 분류 체계가 전통적으로 이러한 필요를 충족시켜 왔지만, 이 과정은 시간이 많이 소요되고 비용이 많이 든다. 더욱이 최근의 자동 분류 체계 구축 방법들은 (1) 특정 코퍼스에 지나치게 의존하여 일반화 가능성을 희생하거나, (2) 대규모 언어 모델(LLM)의 사전 학습 데이터셋에 포함된 일반 지식에 크게 의존함으로써, 진화하는 과학 분야의 동적 특성을 종종 간과한다. 또한, 이러한 접근법들은 과학 문헌의 다면적 특성을 고려하지 못하는데, 단일 연구 논문이 여러 차원(예: 방법론, 새로운 과제, 평가 지표, 벤치마크)에 기여할 수 있기 때문이다. 이러한 격차를 해결하기 위해, 우리는 TaxoAdapt를 제안한다. 이 프레임워크는 주어진 코퍼스에 대해 LLM이 생성한 분류 체계를 여러 차원에 걸쳐 동적으로 적응시킨다. TaxoAdapt는 반복적인 계층적 분류를 수행하며, 코퍼스의 주제 분포를 기반으로 분류 체계의 폭과 깊이를 확장한다. 우리는 다양한 컴퓨터 과학 학회에서의 최신 성능을 입증하여, 과학 분야의 진화를 구조화하고 포착하는 능력을 보여준다. 다차원적 방법으로서, TaxoAdapt는 LLM에 의해 평가된 가장 경쟁력 있는 기준선보다 26.51% 더 세분화를 보존하고 50.41% 더 일관된 분류 체계를 생성한다.
개인 또는 단체가 제기하는 주장은 종종 미묘한 차이를 보이며, 과학적 또는 정치적 주장에서 자주 나타나듯이 완전히 "참" 또는 "거짓"으로 명확히 분류하기 어려운 경우가 많다. 그러나 예를 들어 "백신 A가 백신 B보다 우수하다"와 같은 주장은 그 구성 요소와 하위 요소(예: 효능, 안전성, 유통)로 세분화할 수 있으며, 이는 개별적으로 검증하기가 더 용이하다. 이를 통해 특정 문제에 대한 포괄적이고 구조화된 응답을 제공할 수 있으며, 독자가 주장 내에서 관심 있는 특정 측면(예: 어린이에 대한 안전성)을 우선적으로 고려할 수 있도록 한다. 따라서 우리는 주장을 다룰 때 일반적으로 고려되는 측면의 계층 구조를 자동으로 구성하고, 이를 코퍼스 특정 관점으로 풍부하게 하는 검색 강화 생성 기반 프레임워크인 ClaimSpect를 제안한다. 이 구조는 입력 코퍼스를 계층적으로 분할하여 관련 세그먼트를 검색하며, 이를 통해 새로운 하위 측면을 발견하는 데 도움을 준다. 또한, 이러한 세그먼트는 주장의 특정 측면에 대한 다양한 관점(예: 지지, 중립, 반대)과 그들의 상대적 빈도(예: "얼마나 많은 생물의학 논문이 백신 A가 B보다 운반 가능성이 높다고 믿는가?")를 발견할 수 있게 한다. 우리는 구축한 데이터셋에 포함된 다양한 실제 과학적 및 정치적 주장에 ClaimSpect를 적용하여, 미묘한 주장을 해체하고 코퍼스 내 관점을 표현하는 데 있어 그 견고성과 정확성을 입증한다. 실제 사례 연구와 인간 평가를 통해 여러 기준선 대비 그 효과성을 검증한다.
분류자 없는 지도(Classifier-free guidance, CFG)는 현대 확산 모델에서 생성 품질과 입력 조건과의 정렬을 모두 향상시키기 위한 필수적인 구성 요소로 자리 잡았습니다. 그러나 CFG는 특정한 훈련 절차를 필요로 하며 조건부 생성에만 제한됩니다. 이러한 한계를 해결하기 위해, 우리는 토큰 섭동 지도(Token Perturbation Guidance, TPG)라는 새로운 방법을 제안합니다. TPG는 확산 네트워크 내의 중간 토큰 표현에 직접 섭동 행렬을 적용하는 방식으로, 노름 보존 셔플링 연산을 통해 효과적이고 안정적인 지도 신호를 제공하여 아키텍처 변경 없이도 생성 품질을 개선합니다. 결과적으로, TPG는 훈련이 필요 없으며 입력 조건에 구애받지 않아 조건부 및 무조건부 생성 모두에 쉽게 적용할 수 있습니다. 우리는 TPG가 제공하는 지도 항목을 추가로 분석하고, 기존의 훈련이 필요 없는 지도 기법들과 비교했을 때 샘플링에 미치는 영향이 CFG와 더 유사함을 보여줍니다. SDXL 및 Stable Diffusion 2.1에 대한 광범위한 실험을 통해, TPG가 무조건부 생성에서 SDXL 기준선 대비 FID(Fréchet Inception Distance)에서 거의 2배의 개선을 달성하면서도 프롬프트 정렬에서는 CFG와 거의 동등한 성능을 보임을 확인했습니다. 이러한 결과는 TPG를 CFG와 유사한 이점을 더 넓은 범위의 확산 모델에 제공하는 일반적이고 조건에 구애받지 않는 지도 방법으로 입증합니다. 코드는 https://github.com/TaatiTeam/Token-Perturbation-Guidance에서 확인할 수 있습니다.
긴 문맥을 처리하는 대규모 언어 모델(LLM)의 추론 최적화는 Transformer의 이차 계산 복잡도와 선형 메모리 복잡도로 인해 점점 더 중요해지고 있다. 기존의 근사 방법들은 키-값(KV) 캐시 삭제, 희소 주의 메커니즘, 프롬프트 압축 등 토큰 또는 KV 쌍의 중요성을 대략적으로 예측하는 데 의존한다. 본 연구에서는 작은 드래프트 모델을 활용하여 토큰과 KV 쌍의 중요성을 더 정확하게 예측하는 새로운 근사 LLM 추론 프레임워크를 제안한다. 구체적으로, 우리는 제안된 프레임워크의 두 가지 구현을 소개한다: (i) SpecKV는 드래프트 출력을 활용하여 각 KV 쌍의 중요성을 정확히 평가하여 더 효과적인 KV 캐시 삭제를 가능하게 하고, (ii) SpecPC는 드래프트 모델의 주의 활성화를 사용하여 중요하지 않은 프롬프트 토큰을 식별하고 제거한다. 우리가 아는 한, 이는 드래프트 모델을 근사 LLM 추론 가속화에 사용한 첫 번째 연구로, 기존의 무손실 스펙큘레이티브 디코딩의 유용성을 확장한다. 우리는 이론적 및 실증적 분석을 통해 제안 방법의 동기를 설명하고, 드래프트 모델과 타겟 모델의 주의 패턴 간의 강한 상관관계를 보여준다. 긴 문맥 벤치마크에 대한 광범위한 실험을 통해 우리의 방법이 기존 베이스라인보다 더 높은 정확도를 일관되게 달성하면서도 메모리 사용량, 지연 시간, 처리량에서 동일한 개선을 유지함을 보여준다. 우리의 코드는 https://github.com/furiosa-ai/draft-based-approx-llm에서 확인할 수 있다.
파운데이션 모델은 다양한 작업과 데이터셋에 걸쳐 일반적인 목적의 학습을 가능하게 함으로써 자연어 처리 및 컴퓨터 비전과 같은 분야에 혁신을 가져왔습니다. 그러나 인간의 이동성에 대한 유사한 모델을 구축하는 것은 이동성 데이터의 프라이버시 민감성과 이로 인해 발생하는 기관 간 데이터 사일로로 인해 여전히 어려운 과제로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 생성적 지속 학습을 통해 이동성 파운데이션 모델을 훈련하기 위한 확장 가능하고 프라이버시를 보호하는 프레임워크인 MoveGCL을 제안합니다. MoveGCL은 원시 데이터를 공유하지 않고도 고정된 교사 모델에서 생성된 합성 궤적을 재생함으로써 분산적이고 점진적인 모델 진화를 가능하게 하며, 치명적인 망각을 완화하기 위한 맞춤형 지식 증류 전략을 통해 지식 보존을 강화합니다. 이동성 패턴의 이질성을 해결하기 위해 MoveGCL은 이동성 인식 전문가 라우팅 메커니즘을 갖춘 Mixture-of-Experts Transformer를 통합하고, 지속적인 업데이트를 안정화하기 위해 계층별 점진적 적응 전략을 사용합니다. 6개의 실제 도시 데이터셋에 대한 실험 결과, MoveGCL은 공동 훈련과 비슷한 성능을 달성하고 연합 학습 기준선을 크게 능가하는 동시에 강력한 프라이버시 보호를 제공하는 것으로 나타났습니다. MoveGCL은 이동성을 위한 파운데이션 모델의 잠재력을 해제하는 데 있어 중요한 단계를 표시하며, 파운데이션 모델 시대에 개방적이고 확장 가능하며 프라이버시를 보호하는 모델 개발을 위한 실용적인 청사진을 제공합니다.
물리적으로 현실적이고 정확하게 스케일링된 3D 시뮬레이션 세계를 구축하는 것은 구체화된 지능(embodied intelligence) 작업의 훈련과 평가에 있어 매우 중요합니다. 3D 데이터 자산의 다양성, 현실성, 저비용 접근성 및 경제성은 구체화된 AI에서 일반화와 확장성을 달성하는 데 핵심적입니다. 그러나 현재 대부분의 구체화된 지능 작업은 여전히 수동으로 생성되고 주석이 달린 전통적인 3D 컴퓨터 그래픽 자산에 크게 의존하고 있으며, 이는 높은 제작 비용과 제한된 현실성으로 인해 문제가 됩니다. 이러한 한계는 데이터 기반 접근법의 확장성을 크게 저해합니다. 본 논문에서는 상호작용 가능한 3D 세계 생성을 위한 기반 플랫폼인 EmbodiedGen을 소개합니다. EmbodiedGen은 저비용으로 정확한 물리적 특성과 실세계 스케일을 가진 고품질, 제어 가능, 사실적인 3D 자산을 Unified Robotics Description Format(URDF)으로 대규모로 생성할 수 있도록 합니다. 이러한 자산은 다양한 물리 시뮬레이션 엔진으로 직접 임포트되어 세밀한 물리적 제어를 지원하며, 훈련 및 평가를 위한 다운스트림 작업을 지원합니다. EmbodiedGen은 사용하기 쉬운 풀-피처드 툴킷으로, Image-to-3D, Text-to-3D, 텍스처 생성, 관절형 객체 생성, 장면 생성 및 레이아웃 생성 등 6가지 주요 모듈로 구성되어 있습니다. EmbodiedGen은 생성적 AI를 활용하여 구체화된 지능 관련 연구의 일반화 및 평가 요구 사항을 해결하기 위해 다양한 상호작용 가능한 3D 세계를 생성합니다. 코드는 https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html에서 확인할 수 있습니다.
언어 모델의 능력을 신뢰성 있게 평가하는 것은 모델 개발에 유용한 통찰을 도출하는 데 있어 매우 중요합니다. 그러나 이 분야에서 엄격한 인과적 평가는 복잡한 교란 효과와 광범위한 재훈련에 따른 과도한 계산 비용 등 상당한 방법론적 어려움에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 관측된 벤치마크 성능을 소수의 잠재적 능력 요인의 선형 변환으로 모델링하는 인과적 표현 학습 프레임워크를 제안합니다. 특히, 이러한 잠재 요인들은 기본 모델을 공통 교란 요인으로 적절히 통제한 후 인과적으로 상호 연관된 것으로 식별됩니다. Open LLM 리더보드의 6개 벤치마크에서 평가된 1500개 이상의 모델을 포함한 포괄적인 데이터셋에 이 접근법을 적용함으로써, 우리는 관측된 성능 변동을 신뢰성 있게 설명하는 간결한 3노드 선형 인과 구조를 발견했습니다. 이 인과 구조에 대한 추가 해석은 단순한 수치적 순위를 넘어 상당한 과학적 통찰을 제공합니다: 구체적으로, 우리는 일반적인 문제 해결 능력에서 시작하여 지시 따르기 숙련도를 거쳐 수학적 추론 능력으로 이어지는 명확한 인과적 방향성을 밝혀냈습니다. 우리의 결과는 평가 과정에서 기본 모델 변이를 신중히 통제하는 것이 잠재적 모델 능력 간의 근본적인 인과 관계를 정확히 파악하는 데 있어 필수적임을 강조합니다.
그림 설명은 독자가 그림의 주요 메시지를 이해하고 기억하는 데 중요한 역할을 합니다. 이러한 설명을 생성하기 위해 다양한 모델이 개발되어 저자들이 더 나은 품질의 설명을 더 쉽게 작성할 수 있도록 돕고 있습니다. 그러나 저자들은 거의 항상 일반적인 AI 생성 설명을 자신의 글쓰기 스타일과 해당 분야의 스타일에 맞게 수정해야 하므로, 개인화의 필요성이 강조됩니다. 언어 모델의 개인화(LaMP) 기술이 발전했음에도 불구하고, 이러한 기술들은 주로 텍스트만을 다루는 환경에 초점을 맞추고 있으며, 입력과 프로필이 모두 다중 모드인 시나리오를 거의 다루지 않습니다. 본 논문은 다중 모드 그림 프로필을 활용한 개인화된 그림 설명 생성을 위한 데이터셋인 LaMP-Cap을 소개합니다. LaMP-Cap은 각 대상 그림에 대해 필요한 입력(예: 그림 이미지)뿐만 아니라 동일한 문서에서 가져온 최대 세 개의 다른 그림(각각의 이미지, 설명, 그림을 언급한 문단)을 프로필로 제공하여 문맥을 특성화합니다. 네 가지 대형 언어 모델(LLM)을 사용한 실험 결과, 프로필 정보를 사용하면 원본 저자가 작성한 설명에 더 가까운 설명을 생성하는 데 일관적으로 도움이 되는 것으로 나타났습니다. 추가 연구를 통해 프로필의 이미지가 그림을 언급한 문단보다 더 유용하다는 것이 밝혀졌으며, 이는 텍스트만 사용한 프로필보다 다중 모드 프로필을 사용하는 이점을 강조합니다.
자동화된 공격 기술이 빠르게 발전함에 따라 CAPTCHA는 악성 봇에 대한 중요한 방어 메커니즘으로 남아 있습니다. 그러나 기존의 CAPTCHA 체계는 정적인 왜곡된 텍스트와 난독화된 이미지부터 인터랙티브 클릭, 슬라이딩 퍼즐, 논리 기반 질문 등 다양한 양식을 포함하고 있음에도 불구하고, 커뮤니티는 여전히 이들의 보안 견고성을 엄격하게 평가할 수 있는 통합적이고 대규모의 다중 양식 벤치마크를 갖추지 못하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 이질적인 CAPTCHA 유형을 단일 평가 프로토콜로 통합한 포괄적이고 재현 가능한 벤치마킹 도구인 MCA-Bench를 소개합니다. 공유된 시각-언어 모델 백본을 활용하여 각 CAPTCHA 카테고리에 특화된 크래킹 에이전트를 미세 조정함으로써 일관된 교차 양식 평가를 가능하게 합니다. 광범위한 실험을 통해 MCA-Bench가 다양한 공격 설정 하에서 현대 CAPTCHA 설계의 취약성 스펙트럼을 효과적으로 매핑하며, 특히 도전 과제의 복잡성, 상호작용 깊이, 모델 해결 가능성 간의 상호 관계에 대한 첫 번째 정량적 분석을 제공함을 확인했습니다. 이러한 발견을 바탕으로, 우리는 세 가지 실행 가능한 설계 원칙을 제안하고 주요 개방형 과제를 식별함으로써 체계적인 CAPTCHA 강화, 공정한 벤치마킹, 그리고 더 넓은 커뮤니티 협력을 위한 기반을 마련했습니다. 데이터셋과 코드는 온라인에서 이용 가능합니다.
보정되지 않은 비디오 스트림에서 동적 3D 장면의 실시간 재구성은 다양한 실제 응용 분야에서 매우 중요합니다. 그러나 기존 방법들은 세 가지 주요 과제를 동시에 해결하는 데 어려움을 겪고 있습니다: 1) 보정되지 않은 입력을 실시간으로 처리, 2) 동적 장면의 진화를 정확하게 모델링, 3) 장기적인 안정성과 계산 효율성 유지. 이를 위해, 우리는 임의 길이의 보정되지 않은 비디오 스트림을 동적 3D 가우시안 스플래팅(3DGS) 표현으로 온라인 방식으로 변환할 수 있는 첫 번째 완전 순방향 프레임워크인 StreamSplat을 소개합니다. 이 프레임워크는 시간적으로 국소적인 관찰로부터 장면 동역학을 복구할 수 있습니다. 우리는 두 가지 주요 기술 혁신을 제안합니다: 3DGS 위치 예측을 위한 정적 인코더의 확률적 샘플링 메커니즘과, 강력하고 효율적인 동적 모델링을 가능하게 하는 동적 디코더의 양방향 변형 필드입니다. 정적 및 동적 벤치마크에 대한 광범위한 실험을 통해 StreamSplat이 재구성 품질과 동적 장면 모델링 모두에서 기존 작업들을 일관되게 능가하며, 임의 길이의 비디오 스트림의 온라인 재구성을 독자적으로 지원함을 입증했습니다. 코드와 모델은 https://github.com/nickwzk/StreamSplat에서 확인할 수 있습니다.