مقدمه ای بر چارچوب توصیف منابع (RDF)

معرفی

در این آموزش، مفهوم چارچوب توصیف منابع (RDF) و ویژگی های اصلی آن، نحوه استفاده از آن و برای چه چیزی را معرفی می کنیم. RDF مدلی برای نمایش داده های مربوط به اشیاء فیزیکی و مفاهیم انتزاعی است. این مدلی برای بیان روابط بین موجودیت ها با استفاده از فرمت گراف است. در بخش‌های بعدی، مدل RDF را با جزئیات بیشتر، نحوه نمایش آن، نحوه و چگونگی استفاده از آن را توضیح خواهیم داد.

بازنمایی چارچوب توصیف منابع (RDF).

RDF امکان توصیف هر چیزی را فراهم می کند: افراد، حیوانات، اشیاء و مفاهیم از هر نوع. منابع محسوب می شوند. RDF اطلاعات معنی داری را برای برنامه های نرم افزاری نشان می دهد. اگرچه، انسان ها می توانستند RDF ها را بخوانند و از آنها استفاده کنند.

ما اطلاعات را با عباراتی در قالب زیر نشان می دهیم:

فاعل —گزاره — مفعول

این عبارات بیانگر رابطه بین فاعل و مفعول است. فاعل و مفعول هر دو منبع هستند.

بیایید چند نمونه RDF را در شبه کد ببینیم:

>جان> <هست یک> <شخص>

>جان> <هست دوست< <جین>

>جان><متولد شده است> <در 10 مه 2000>

>جان> < علاقه مند است به> < the Rosetta Stone >

>مجسمه داوود> <هست در> <موزه بریتانیا<

در اینجا، می‌توانیم چندین عبارات را ببینیم که به یک منبع ارجاع می‌دهند. یک منبع می تواند نقش های متفاوتی را در عبارات مختلف ایفا کند. به این ترتیب، می‌توانیم آن عبارات را به هم مرتبط کنیم و ارتباط بین منابع را در عبارات مختلف پیدا کنیم.

RDF ها معمولاً توسط گراف‌های جهت دار تجسم می شوند:

که یک راه ساده و واضح برای نشان دادن آن است.

عبارات RDF به عنوان سه گانه نیز شناخته می شوند. در بخش بعدی انواع داده های مورد استفاده در RDF ها را توضیح می دهیم.

انواع داده چارچوب توصیف منابع (RDF).

اجزای یک RDF می تواند IRI، literals و یا blank nodes(گره های خالی) باشد.

IRI (Internationalized Resource Identifier) یک استاندارد پروتکلی است که شناسه منبع یکنواخت (URI) را گسترش می دهد. استاندارد URI فقط از مجموعه کاراکترهای US-ASCII استفاده می کند. IRI اجازه می دهد تا حاوی کاراکترهایی از مجموعه کاراکترهای یونیکد باشد. IRI اجازه استفاده از حروف چینی، ژاپنی، کره ای و سیریلیک را می دهد. IRI ها می توانند در تمام موقعیت های یک RDF ظاهر شوند.

به عنوان مثال، IRI برای the Rosetta Stone :

https://dbpedia.org/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FRosetta_stone&sid=4560

و IRI برای موزه بریتانیا عبارت است از:

https://dbpedia.org/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FCategory%3ABritish_Museum&sid=4560

RDF امکان ترکیب اطلاعات از مجموعه داده های مختلف مانند Wikidata، DBpedia و WordNet را می دهد.

Literal ها مقادیر اساسی از جمله رشته ها، تاریخ ها و اعداد هستند. آنها نمی توانند در موقعیت های فاعل یا محمول ظاهر شوند، فقط در مفعول.

مواد اولیه برای تعریف RDF ها IRI و Literals هستند. اما گاهی اوقات مراجعه به منابع بدون شناسه جهانی که منابع ناشناس در نظر گرفته می شود راحت است. آنها وجود چیزی را بدون ذکر جزئیات نشان می دهند. آنها فقط می توانند در موقعیت های فاعل و مفعول مورد استفاده قرار گیرند.

یک زبان پرس و جو برای RDF

SPARQL یک زبان پرس و جو است که داده هایی را که از فرمت RDF استفاده می کنند درخواست و بازیابی می کند. بنابراین، پایگاه داده مجموعه ای از آیتم ها با قالب موضوع – محمول – مفعول است که قبلا توضیح داده شد. SPARQL اجازه می دهد تا از عملیات پرس و جو مانند JOIN، SORT، AGGREGATE، همراه با موارد دیگر استفاده کنید.

مثال زیر به شما اجازه می دهد تا نام و ایمیل همه افراد موجود در مجموعه داده

FOAF (Friend Of A Friend) را بدست آورید:

PREFIX foaf:

SELECT ?name

?email

WHERE

{

?person a foaf:Person .

?person foaf:name ?name .

?person foaf:mbox ?email .

}

جمله PREFIX برچسب foaf را نشان می دهد که نشان دهنده URI نشان داده شده بین براکت ها است. جمله SELECT همه RDF ها را به هم می پیوندد که در آن گزاره a با یک شخص مطابق با مجموعه داده foaf و نام و صندوق پستی شخص مطابقت دارد.

نتیجه پیوستن شامل مجموعه‌ای از ردیف‌ها با نام و ایمیل هر فرد در مجموعه داده است. از آنجایی که یک شخص ممکن است چندین نام و صندوق پستی داشته باشد، مجموعه نتایج برگشتی می‌تواند شامل چندین ردیف برای یک شخص باشد.

مجموعه داده های RDF

نمودارهای RDF را می توان در مجموعه داده ها سازماندهی کرد. آنها باید دارای یک نمودار پیش فرض متمایز و نمودارهای با نام صفر یا بیشتر باشند. یک معنای رسمی برای آن مجموعه داده ها وجود ندارد. SPARQL از مجموعه داده های RDF برای پرس و جو استفاده می کند. گراف‌های نام‌گذاری شده چهارگانه‌ای هستند که سه جزء با RDF سه‌گانه مطابقت دارند و مولفه چهارم نام گراف است. نمودار پیش فرض نیازی به داشتن نام ندارد.

پروژه DBpedia محتوای ساختار یافته را با فرمت RDF از ویکی پدیا استخراج می کند. مجموعه داده DBpedia با دیگر مجموعه داده های Open Data در وب در ارتباط است. بیش از 45 میلیون پیوند بین DBpedia و سایر مجموعه داده ها وجود دارد. ما می توانیم از SPARQL برای دسترسی به داده های DBpedia استفاده کنیم.

برنامه های کاربردی با استفاده از RDF

برنامه های کاربردی با استفاده از چارچوب RDF مزایای بسیاری دارند. RDF یک چارچوب استاندارد برای تبادل داده ها و ابرداده ها فراهم می کند. این چارچوب، باز و قابل تعامل است. Syntax استاندارد RDF به نرم افزار اجازه می دهد تا از ابرداده به‌صورت کارآمد استفاده کند. نمودارهای RDF اطلاعات بسیار بیشتری در مورد روابط موجودیت نسبت به پایگاه داده های رابطه ای ارائه می‌دهند.

6.1. برنامه های کاربردی با استفاده از RDF

در ادامه برخی از برنامه های کاربردی واقعی را معرفی می کنیم که از سه گانه RDF استفاده می کنند. IBM DB2 Enterprise Server Edition امکان ذخیره و پرس و جوی نمودارهای RDF را در پایگاه داده ها فراهم می کند. پایگاه داده های DB2 به برنامه های کاربردی اجازه می دهد از SPARQL برای بازیابی داده های RDF استفاده کنند. DB2 از APIهای چارچوب JENA پشتیبانی می کند که داده های RDF را در جداول کاربر بارگذاری می کنند.

آمازون نپتون یک پایگاه داده گراف است که از RDF و SPARQL پشتیبانی می کند. در 22 منطقه AWS موجود است. برخی از مشتریان آمازون نپتون عبارتند از: Samsung Electronics، Pearson، Siemens، AstraZeneca و Amazon Alexa.

Apache Jena چارچوبی برای جاوا با یک API برای استفاده از نمودارهای RDF است. این نمودارها می توانند حاوی داده هایی از فایل ها، پایگاه داده ها و URL ها باشند. Jena اجازه می دهد تا از SPARQL برای پرس و جوی سه گانه RDF استفاده کنید. Jena همچنین از زبان هستی شناسی وب (OWL)، خانواده ای از زبان ها برای نمایش دانش با استفاده از هستی شناسی ها پشتیبانی می کند Jena اجازه می دهد تا نمودارهای RDF را به پایگاه داده های رابطه ای بین فرمت های دیگر تبدیل کنید.

6.2. خدمات با استفاده از RDF

برخی از خدماتی را که از نمودارهای RDF استفاده می کنند به شرح زیر هستند:

Open Calais، یک سرویس تامسون رویترز، از پیوندهای DBpedia استفاده می کند. سه گانه RDF شناسایی موجودیت ها، حقایق و رویدادها را از متون بدون ساختار استخراج می کند.

Calais توسط Refinitiv، یکی از شرکت های تابعه گروه بورس لندن در دسترس است.

Refinitiv داده های بازار مالی را ارائه می دهد.

Calais برای برچسب گذاری مقالات وبلاگ و سازماندهی مجموعه های موزه استفاده می شود.

The BBC Learning-Open Lab از DBpedia برای برچسب گذاری محتوا و جلوگیری از سردرگمی بین آن برچسب ها استفاده می کند. استفاده از DBpedia به آنها اجازه می دهد تا متنی را که به ” aeroplane”، ” airplane” و ” aircraft ” در زیر یک برچسب اشاره دارد، برچسب گذاری کنند. آنها به راحتی می توانند Turkey (کشور) و Turkey (پرنده) را متمایز کنند.

نتیجه گیری

در این آموزش مفهوم چارچوب توصیف منابع (RDF) و قالب آن را توضیح دادیم. ما همچنین نحوه نمایش اجزای یک سه گانه RDF، نحوه پرس و جو از یک مجموعه داده RDF را توضیح دادیم و برخی از مجموعه داده های RDF مهم را ذکر کردیم.