Relationship extraction

Trích rút quan hệ: xác định và phân loại mối quan hệ trong một tập các đối tượng, thường trong văn bản hoặc các tài liệu XML. Bài toán rất giống với trích rút thông tin (IE), nhưng IE thường yêu cầu loại bỏ các quan hệ trùng lặp (khử nhập nhằng).

Ví dụ, chú ý đến quan hệ hôn nhân. Bài toán đặt ra nhiệm vụ cần biết "Michelle Obama" là vợ của "Barack Obama" từ câu ''"Barack Obama cưới Michelle Obama vào ngày...". ''Một cách tiếp cận cơ bản có thể là tìm tất cả các bài viết có chứa cụm từ đặc biệt, như "cưới", "là vợ của". Cách tiếp cận này có thể cho một vài kết quả ban đầu, nhưng ngôn ngữ tự nhiên rất mơ hồ, không thể tìm tất cả các cụm từ chỉ mối quan hệ hôn nhân. Hướng tiếp cận tự nhiên tiếp theo là sử dụng các kỹ thuật học máy để trích rút các mối quan hệ. Nếu có dữ liệu có gán nhãn, ví dụ danh sách những người với những mối quan hệ hôn nhân tương ứng, từ đó có thể sử dụng kỹ thuật phân loại trong học máy để học các khuôn mẫu. Điều này nghe có vẻ là một ý tưởng tốt, nhưng có một vài vấn đề:
 * Làm sao có thể phân biệt được các từ khác nhau cùng đề cập đến một đối tượng? Ví dụ, một câu nói về "Barack Obama" có thể dùng các từ "Barack" hoặc "Tổng thống"
 * Làm sao có thể thu thập được dữ liệu huấn luyện cho mô hình học máy?
 * Làm sao có thể xử lý được dữ liệu xung đột và không chắc chắn?