
손상된 역사 문서의 원래 외관 예측

Predicting the Original Appearance of Damaged Historical Documents

December 16, 2024
저자: Zhenhua Yang, Dezhi Peng, Yongxin Shi, Yuyi Zhang, Chongyu Liu, Lianwen Jin


역사적 문서는 문자 손실, 종이 손상 및 시간이 지남에 따른 잉크 부식 등 심각한 손상을 겪지만 문화적 보물의 풍부함을 포함하고 있습니다. 그러나 기존의 문서 처리 방법은 주로 이진화, 개선 등에 초점을 맞추고 있어 이러한 손상의 복구를 무시합니다. 이에 우리는 손상된 역사적 문서의 원래 모습을 예측하는 새로운 작업인 '역사적 문서 복구 (HDR)'를 제안합니다. 이 분야의 공백을 메우기 위해 우리는 대규모 데이터셋 HDR28K와 역사적 문서 복구를 위한 확산 기반 네트워크 DiffHDR을 제안합니다. 구체적으로, HDR28K에는 문자 수준 주석과 다양한 스타일의 손상이 있는 28,552개의 손상된-복구된 이미지 쌍이 포함되어 있습니다. 또한 DiffHDR은 의미론적 및 공간 정보와 세심하게 설계된 문자 인식 손실을 사용하여 맥락적 및 시각적 일관성을 위해 일반적인 확산 프레임워크를 보강합니다. 실험 결과는 HDR28K로 훈련된 제안된 DiffHDR이 기존 방법을 크게 능가하며 실제 손상된 문서를 처리하는 뛰어난 성능을 보여준다는 것을 입증합니다. 특히, DiffHDR은 문서 편집 및 텍스트 블록 생성으로 확장할 수 있어 높은 유연성과 일반화 능력을 보여줍니다. 이 연구가 문서 처리의 새로운 방향을 개척하고 소중한 문화와 문명의 유산에 기여할 것으로 믿습니다. 데이터셋과 코드는에서 제공됩니다.
Historical documents encompass a wealth of cultural treasures but suffer from severe damages including character missing, paper damage, and ink erosion over time. However, existing document processing methods primarily focus on binarization, enhancement, etc., neglecting the repair of these damages. To this end, we present a new task, termed Historical Document Repair (HDR), which aims to predict the original appearance of damaged historical documents. To fill the gap in this field, we propose a large-scale dataset HDR28K and a diffusion-based network DiffHDR for historical document repair. Specifically, HDR28K contains 28,552 damaged-repaired image pairs with character-level annotations and multi-style degradations. Moreover, DiffHDR augments the vanilla diffusion framework with semantic and spatial information and a meticulously designed character perceptual loss for contextual and visual coherence. Experimental results demonstrate that the proposed DiffHDR trained using HDR28K significantly surpasses existing approaches and exhibits remarkable performance in handling real damaged documents. Notably, DiffHDR can also be extended to document editing and text block generation, showcasing its high flexibility and generalization capacity. We believe this study could pioneer a new direction of document processing and contribute to the inheritance of invaluable cultures and civilizations. The dataset and code is available at
PDF42December 20, 2024