Ontology in the Loop - AI-Assisted Knowledge Graph Evolution

Abstract

Knowledge graph ต้องการการบำรุงรักษา ontology อย่างต่อเนื่องเมื่อข้อมูลใหม่เผยให้เห็น concept ที่ไม่ได้ถูกครอบคลุมใน schema เดิม การปรับปรุงด้วยมือนั้นใช้แรงงานมาก ในขณะที่วิธีอัตโนมัติเต็มรูปแบบเสี่ยงต่อความไม่สอดคล้องกัน บทความนี้นำเสนอ Human-in-the-Loop framework สำหรับ AI-assisted ontology evolution โดยที่ large language model ตรวจจับ schema gap และสร้าง proposal ที่มีโครงสร้างสำหรับให้มนุษย์ตรวจสอบ Framework นี้ใช้ domain-based schema slicing เพื่อจัดการ context ของ LLM อย่างมีประสิทธิภาพ และ embedding-based validation เพื่อป้องกัน proposal ที่ซ้ำซ้อน เราอธิบาย workflow ตั้งแต่การตรวจจับ gap จนถึงการ approve โดยมนุษย์และการ apply เป็น batch โดยสร้างสมดุลระหว่างประสิทธิภาพของระบบอัตโนมัติกับการควบคุมคุณภาพโดยมนุษย์

I. Introduction

1.1 Motivation

Knowledge graph กลายเป็นสิ่งจำเป็นสำหรับการแสดงข้อมูลที่มีโครงสร้างในด้านการเงิน การแพทย์ และ e-commerce Knowledge graph ประกอบด้วย entity (node ที่แทนวัตถุในโลกจริง), relationship (edge ที่เชื่อมต่อ entity) และ ontology (schema ที่กำหนด type ที่ถูกต้อง)

Ontology กำหนดว่าอะไรสามารถถูก represent ได้ หาก concept มีอยู่ในโลกจริงแต่ไม่มีใน ontology จะไม่สามารถถูกบันทึกใน knowledge graph ได้ สิ่งนี้สร้างข้อจำกัดพื้นฐาน: เมื่อ domain เปลี่ยนแปลงและข้อมูลใหม่เข้ามา ontology จะกลายเป็นล้าสมัย

ปัญหาหลัก: เมื่อข้อมูลใหม่ไม่เข้ากับ ontology ปัจจุบัน องค์กรต้องเลือกที่จะทิ้งข้อมูลที่มีค่า บังคับใส่อย่างไม่ถูกต้อง หรือปรับปรุง schema ด้วยมือ ซึ่งเป็นกระบวนการที่ช้าและมีราคาแพง

1.2 ตัวอย่างที่เป็นรูปธรรม

พิจารณา financial knowledge graph ที่มี ontology ง่ายๆ นี้:

Entity type: COMPANY, COUNTRY, REGION
Relationship: MEMBER_OF (Country → Region)

เมื่อประมวลผลเอกสารที่ระบุว่า:

"Saudi Arabia is a founding member of OPEC since 1960"

ระบบพบปัญหา:

"OPEC" ไม่ใช่ COMPANY, COUNTRY หรือ REGION — มันเป็น international organization
Membership relationship ระหว่าง Country และ Organization ไม่มีอยู่

หากไม่มี schema evolution ข้อมูลนี้จะสูญหาย Ontology evolution problem คือ: เราจะระบุ gap เหล่านี้และปรับปรุง schema อย่างเป็นระบบได้อย่างไรโดยรักษาคุณภาพข้อมูล?

1.3 แนวทางที่มีอยู่

แนวทางปัจจุบันมีข้อจำกัดที่สำคัญ:

Manual Evolution: Domain expert ตรวจสอบข้อมูลและปรับปรุง ontology ด้วยมือ สิ่งนี้รับประกันคุณภาพแต่ไม่ scale — expert ไม่สามารถตรวจสอบทุกเอกสาร และการปรับปรุง schema กลายเป็นคอขวด

Fully Automated Evolution: ระบบ machine learning ปรับเปลี่ยน ontology โดยไม่มีการกำกับดูแลจากมนุษย์ สิ่งนี้ scale ได้ดีแต่เสี่ยงต่อการสร้าง type ที่ซ้ำซ้อน ความไม่สอดคล้องทาง semantic และข้อผิดพลาดที่แพร่กระจายโดยไม่ถูกตรวจพบ

1.4 แนวทางของเรา

เราเสนอทางสายกลาง: AI-assisted evolution with human-in-the-loop approval ข้อมูลเชิงลึกที่สำคัญคือการแยก proposal generation (ซึ่ง AI สามารถทำได้ในขนาดใหญ่) ออกจาก decision-making (ซึ่งต้องการวิจารณญาณของมนุษย์)

AI-assisted ontology evolution workflow — Fig. 1. Core workflow: AI สร้าง proposal, มนุษย์ตรวจสอบ, ระบบ apply การเปลี่ยนแปลงที่ได้รับอนุมัติ

สิ่งนี้รวมความสามารถของ AI ในการประมวลผลเอกสารในขนาดใหญ่กับความเชี่ยวชาญของมนุษย์สำหรับการควบคุมคุณภาพ สมมุติฐานนั้นง่าย:

AI + Human Review > Pure Manual หรือ Pure Automation

1.5 ความท้าทายทางเทคนิค

การ implement แนวทางนี้ต้องแก้ปัญหาหลายอย่าง:

ความท้าทายที่ 1: Context Limit Large language model มี context window ที่จำกัด Production ontology ที่มีหลายร้อย type เกินขีดจำกัดเหล่านี้ เราจัดการสิ่งนี้ผ่าน domain-based schema slicing — แบ่ง ontology ออกเป็น semantic domain และให้เฉพาะส่วนที่เกี่ยวข้องกับ LLM

ความท้าทายที่ 2: Gap vs. Error เมื่อการ extract ล้มเหลว อาจบ่งชี้ถึง schema gap ที่แท้จริง, data error หรือเพียงแค่เลือก domain ผิด ระบบต้องจำแนก failure ได้อย่างแม่นยำเพื่อหลีกเลี่ยงการสร้าง proposal ที่ไม่ถูกต้อง

ความท้าทายที่ 3: Proposal Conflict เอกสารต่างกันอาจทริกเกอร์ proposal ที่คล้ายกัน หากไม่มีการตรวจสอบ ระบบอาจเสนอ "PARTNERS_WITH" และ "COOPERATES_WITH" สำหรับ concept เดียวกัน เราใช้ embedding-based similarity detection เพื่อระบุ duplicate

ความท้าทายที่ 4: Review Backlog มนุษย์ไม่ได้พร้อมเสมอ Proposal สะสมระหว่าง review session ต้องการ batch processing ในขณะที่รักษาความสอดคล้อง

1.6 Contribution

บทความนี้มีส่วนร่วมสี่ประการ:

Framework Design — สถาปัตยกรรมที่สมบูรณ์สำหรับ AI-assisted ontology evolution พร้อม human oversight
Domain-Based Slicing — วิธีการจัดการ LLM context ผ่านการแบ่ง ontology
Proposal Workflow — กระบวนการที่มีโครงสร้างตั้งแต่การตรวจจับ gap จนถึง human review และการ apply เป็น batch
Embedding Validation — การตรวจจับ duplicate ด้วย similarity-based สำหรับคุณภาพ proposal

1.7 ขอบเขต

งานนี้นำเสนอ conceptual framework พร้อมคำแนะนำการ implement เราทราบว่า:

นี่คือ framework design ไม่ใช่ production system
การตรวจสอบเชิงทดลองวางแผนไว้สำหรับงานในอนาคต
Human review ยังคงจำเป็น — นี่ไม่ใช่ระบบอัตโนมัติเต็มรูปแบบ

เป้าหมายคือการสร้างรากฐานสำหรับ AI-assisted knowledge graph maintenance

1.8 โครงสร้างบทความ

Section II ให้ background เกี่ยวกับ knowledge graph และงานที่เกี่ยวข้อง Section III นำเสนอ system architecture Section IV และ V อธิบายรายละเอียดการตรวจจับ gap และ human workflow Section VI พูดถึงการ implement Section VII และ VIII ครอบคลุมข้อจำกัดและบทสรุป