HumanEdit: 지시 기반 이미지 편집을 위한 고품질 인간 보상 데이터셋
HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing
December 5, 2024
저자: Jinbin Bai, Wei Chow, Ling Yang, Xiangtai Li, Juncheng Li, Hanwang Zhang, Shuicheng Yan
cs.AI
초록
우리는 HumanEdit을 제시합니다. 이는 정확하고 다양한 이미지 조작을 가능하게 하는 지시어 안내 이미지 편집을 위해 특별히 설계된 고품질의 인간 보상 데이터셋입니다. 이전 대규모 편집 데이터셋은 종종 최소한의 인간 피드백을 통합하여 데이터셋을 인간의 선호에 맞추는 데 어려움을 겪었습니다. HumanEdit은 인간 주석자들을 활용하여 데이터 쌍을 구축하고 피드백을 제공함으로써 이 간극을 메웁니다. 면밀한 선별을 통해 HumanEdit은 4단계에서 2,500시간 이상의 인간 노력을 필요로 하며 5,751개의 이미지로 구성되어 다양한 이미지 편집 작업에 대한 정확성과 신뢰성을 보장합니다. 이 데이터셋에는 Action, Add, Counting, Relation, Remove, Replace의 여섯 가지 유형의 편집 지시어가 포함되어 있어 다양한 실세계 시나리오를 포괄합니다. 데이터셋의 모든 이미지는 마스크와 함께 제공되며 일부 데이터에 대해서는 지시어가 마스크 없는 편집을 지원할 수 있도록 충분히 상세하다는 것을 보장합니다. 더불어, HumanEdit은 다양성과 고해상도 1024x1024 콘텐츠를 제공하여 다양한 도메인에서 가져온 새로운 다목적 지시어 이미지 편집 데이터셋의 기준을 설정합니다. 이미지 편집 분야에서 미래 연구를 진전시키고 평가 기준을 확립하기 위해, 우리는 HumanEdit을 https://huggingface.co/datasets/BryanW/HumanEdit 에 공개합니다.
English
We present HumanEdit, a high-quality, human-rewarded dataset specifically
designed for instruction-guided image editing, enabling precise and diverse
image manipulations through open-form language instructions. Previous
large-scale editing datasets often incorporate minimal human feedback, leading
to challenges in aligning datasets with human preferences. HumanEdit bridges
this gap by employing human annotators to construct data pairs and
administrators to provide feedback. With meticulously curation, HumanEdit
comprises 5,751 images and requires more than 2,500 hours of human effort
across four stages, ensuring both accuracy and reliability for a wide range of
image editing tasks. The dataset includes six distinct types of editing
instructions: Action, Add, Counting, Relation, Remove, and Replace,
encompassing a broad spectrum of real-world scenarios. All images in the
dataset are accompanied by masks, and for a subset of the data, we ensure that
the instructions are sufficiently detailed to support mask-free editing.
Furthermore, HumanEdit offers comprehensive diversity and high-resolution 1024
times 1024 content sourced from various domains, setting a new versatile
benchmark for instructional image editing datasets. With the aim of advancing
future research and establishing evaluation benchmarks in the field of image
editing, we release HumanEdit at
https://huggingface.co/datasets/BryanW/HumanEdit.Summary
AI-Generated Summary