Offene und verknüpfte Daten: RDF-Export von Daten

Offene und verknüpfte Daten: RDF-Export von Daten

Die Daten von Open Food Facts waren bereits öffentlich und frei verfügbar (in Open Data, so nannte sich das), aber jetzt sind sie auch verknüpft. Und ja, frei und verlinkt zugleich!

Frei, weil die offene Lizenz es erlaubt, dass jeder die Daten zu jedem Zweck verwenden darf und verknüpft, weil die Daten nun nicht nur innerhalb miteinander verknüpft sind, sondern auch mit Datenbeständen anderer über die Datenbank DBPedia.

Lassen Sie mich das anders formulieren: Es gibt jetzt eine große Datei, die frei zugängliche Produktdaten von Lebensmitteln, deren Inhaltsstoffe und Nährstoffzusammensetzung enthält. Die Produkte beziehen sich auf die Zutaten, die sie enthalten, und die Zutaten (einige am Anfang) beziehen sich auf deren Seite DBPedia (eine Datenbank aus Wikipedia-Artikeln). Diese Datei ist nicht für Menschen lesbar, nur von Computerprogrammen. Es ist möglich, sie zu durchsuchen, indem man eine Abfrage formuliert wie „Welches sind die Produkte, deren Zutat hauptsächlich aus Zucker besteht“, um es dann leicht mit anderen Datenbeständen abgleichen zu können.

Dank dieser Datei sind die OFF-Daten nun Teil der sogenannten „verknüpften Daten“ oder des „Internet der Daten“. Die Daten sind leichter wiederverwendbar.


Werden Open-Food-Facts-Daten bald mit vielen anderen Datenbeständen verknüpft?

Technische Details:

Ich habe am Datalift Camp teilgenommen, wozu mich Charles Nepote von Datalift einlud. Für mich war es der erste Kontakt mit dem Datalift-Tool. Wir begannen mit den OFF-Daten zu „spielen“, um zu sehen, wie sie in RDF dargestellt werden können.

Die Daten zu Inhaltsstoffen und Nährstoffen werden durch eine Lebensmittel-Ontologie beschrieben, die wir mit François Scharffe vom Labor für Informatik, Robotik und Mikroelektronik von Montpellier LIRMM und Emmanuel Nauer vom Lorrain-Laboratorium für Informatikforschung und seiner LORIA-Anwendungen erschufen. Die Idee ist, das gleiche Vokabular zu verwenden, um eine Rezeptur oder ein Nahrungsmittelprodukt zu beschreiben (wie das, welches im Projekt Taaable in verwendet wird, an dem Emmanuel teilnimmt).

Die RDF-Datei ist hier zu beziehen: https://world.openfoodfacts.org/data/en.openfoodfacts.org.products.rdf (in XML / RDF)

Und es wird auf Data Hub verwiesen, um die Erforschung von Open-Food-Facts-Datenbeständen zu erleichtern.

Die Zutaten werden aus einer Zutatenliste in Textform herausgefiltert, was zu Fehlern führen kann. Das Format der Listen kann von Produkt zu Produkt sehr unterschiedlich sein. Ich bin dabei, die Syntax für das Herausfiltern zu verbessern und zeitgleich korrigieren Mitwirkende Rechtschreibfehler in den Listen.

Die Produkt- und Inhaltsstoffe-URLs verweisen derzeit auf unsere HTML-Webseite, aber ich bin dabei, die URL-Abfrage-Funktion zu implementieren, um die jeweilige RDF zurückzugeben.

François hat Äquivalenzen zwischen den Inhaltsstoffen von Open Food Facts und den gleichen Inhaltsstoffen auf DBPedia erzeugt. Sie werden durch das owl:sameAs Attribut angezeigt, zum Beispiel:

 <food:name> Kaliumsorbat </food:name> 
<2 />
</rdf:Description>

Derzeit gibt es keinen SPARQL-Endpunkt. Sie können stattdessen den RDF-Export in ein Programm wie Datalift laden, um SPARQL-Abfragen ausführen zu können. Zum Beispiel ist hier eine meiner ersten Abfragen (Produkte finden, deren Hauptzutat Zucker ist):

PREFIX food: <https://data.lirmm.fr/ontologies/food#>
SELECT?s?WHERE code {
?s <https://www.w3.org/1999/02/22-rdf-syntax-ns#type> food: FoodProduct.
?s food: containsIngredient?i. ?i food: food <https://world.openfoodfacts.org/ingredient/sugar> . ?i food: rank "1" OPTIONAL {?s food: code?code}.
} ?i food: food <https://world.openfoodfacts.org/ingredient/sugar> . ?i food: rank "1" OPTIONAL {?s food: code?code}.
} ?i food: food <https://world.openfoodfacts.org/ingredient/sugar> . ?i food: rank "1" OPTIONAL {?s food: code?code}.
} ?i food: food <https://world.openfoodfacts.org/ingredient/sugar> . ?i food: rank "1" OPTIONAL {?s food: code?code}.
}

Dies ist natürlich in Arbeit, es fehlen immer noch viele Daten im RDF-Export (Marken, Kategorien usw.). Sie werden mit der Zeit hinzugefügt.

Ihre Ideen, Kommentare, Vorschläge usw. sind willkommen um diese Daten zu verbessern. Verknüpfe sie besser, stelle sie besser dar usw. Außerdem, wenn Sie die Daten nutzen, wäre es nett, wenn Sie uns davon in Kenntnis setzen. Vielen Dank im Voraus!

Und natürlich ein großes Dankeschön an Emmanuel und François für ihre Hilfe!