IPBench: Het benchmarken van de kennis van grote taalmodellen op het gebied van intellectueel eigendom
IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property
April 22, 2025
Auteurs: Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang
cs.AI
Samenvatting
Intellectueel Eigendom (IE) is een uniek domein dat technische en juridische kennis integreert, waardoor het van nature complex en kennisintensief is. Naarmate grote taalmodellen (LLM's) zich blijven ontwikkelen, tonen ze groot potentieel voor het verwerken van IE-taken, wat efficiëntere analyse, begrip en generatie van IE-gerelateerde inhoud mogelijk maakt. Bestaande datasets en benchmarks richten zich echter ofwel smal op patenten of dekken slechts beperkte aspecten van het IE-domein, waardoor ze niet aansluiten bij realistische scenario's. Om deze kloof te overbruggen, introduceren we de eerste uitgebreide taxonomie voor IE-taken en een grote, diverse tweetalige benchmark, IPBench, die 8 IE-mechanismen en 20 taken omvat. Deze benchmark is ontworpen om LLM's te evalueren in realistische toepassingen van intellectueel eigendom, zowel op het gebied van begrip als generatie. We testen 16 LLM's, variërend van algemene modellen tot domeinspecifieke modellen, en constateren dat zelfs het best presterende model slechts 75,8% nauwkeurigheid behaalt, wat aanzienlijke ruimte voor verbetering laat zien. Opvallend is dat open-source IE- en rechtsgerichte modellen achterblijven bij gesloten algemene modellen. We maken alle data en code van IPBench openbaar en zullen deze blijven bijwerken met aanvullende IE-gerelateerde taken om de uitdagingen in het domein van intellectueel eigendom beter te weerspiegelen.
English
Intellectual Property (IP) is a unique domain that integrates technical and
legal knowledge, making it inherently complex and knowledge-intensive. As large
language models (LLMs) continue to advance, they show great potential for
processing IP tasks, enabling more efficient analysis, understanding, and
generation of IP-related content. However, existing datasets and benchmarks
either focus narrowly on patents or cover limited aspects of the IP field,
lacking alignment with real-world scenarios. To bridge this gap, we introduce
the first comprehensive IP task taxonomy and a large, diverse bilingual
benchmark, IPBench, covering 8 IP mechanisms and 20 tasks. This benchmark is
designed to evaluate LLMs in real-world intellectual property applications,
encompassing both understanding and generation. We benchmark 16 LLMs, ranging
from general-purpose to domain-specific models, and find that even the
best-performing model achieves only 75.8% accuracy, revealing substantial room
for improvement. Notably, open-source IP and law-oriented models lag behind
closed-source general-purpose models. We publicly release all data and code of
IPBench and will continue to update it with additional IP-related tasks to
better reflect real-world challenges in the intellectual property domain.Summary
AI-Generated Summary