ChatPaper.aiChatPaper

SemViQA: Семантическая система вопросно-ответной обработки для проверки фактов на вьетнамском языке

SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking

March 2, 2025
Авторы: Nam V. Nguyen, Dien X. Tran, Thanh T. Tran, Anh T. Hoang, Tai V. Duong, Di T. Le, Phuc-Lu Le
cs.AI

Аннотация

Распространение дезинформации, усугубляемое крупными языковыми моделями (LLM), такими как GPT и Gemini, требует надежных решений для проверки фактов, особенно для малоресурсных языков, таких как вьетнамский. Существующие методы сталкиваются с трудностями из-за семантической неоднозначности, омонимов и сложных лингвистических структур, часто жертвуя точностью ради эффективности. Мы представляем SemViQA — новый фреймворк для проверки фактов на вьетнамском языке, который объединяет семантический поиск доказательств (SER) и двухэтапную классификацию вердиктов (TVC). Наш подход балансирует между точностью и скоростью, достигая передовых результатов с 78,97% строгой точности на ISE-DSC01 и 80,82% на ViWikiFC, занимая первое место в UIT Data Science Challenge. Кроме того, SemViQA Faster увеличивает скорость вывода в 7 раз, сохраняя конкурентоспособную точность. SemViQA устанавливает новый стандарт для проверки фактов на вьетнамском языке, способствуя борьбе с дезинформацией. Исходный код доступен по адресу: https://github.com/DAVID-NGUYEN-S16/SemViQA.
English
The rise of misinformation, exacerbated by Large Language Models (LLMs) like GPT and Gemini, demands robust fact-checking solutions, especially for low-resource languages like Vietnamese. Existing methods struggle with semantic ambiguity, homonyms, and complex linguistic structures, often trading accuracy for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking framework integrating Semantic-based Evidence Retrieval (SER) and Two-step Verdict Classification (TVC). Our approach balances precision and speed, achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01 and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge. Additionally, SemViQA Faster improves inference speed 7x while maintaining competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact verification, advancing the fight against misinformation. The source code is available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.

Summary

AI-Generated Summary

PDF252March 5, 2025