Date gratuite și legate: export RDF de date

Date gratuite și legate: export RDF de date

Datele Open Food Facts erau deja deschise și gratuite (în date deschise cum se spune), iar acum sunt, de asemenea, legate. Și da, gratuit și conectat deodată!

Gratuit pentru că licența deschisă permite ca datele să fie folosite de toți și în orice scop, și legate pentru că datele sunt acum legate nu doar între ele, ci și cu alte seturi de date, prin intermediul bazei de date DBPedia.

Permiteți-mi să reformulez că: există acum un fișier mare care conține date Open Food Facts despre produse, ingredientele și compoziția lor nutrițională. Produsele sunt legate de ingredientele pe care le conțin, iar ingredientele (unele pentru a începe) se referă la pagina lor de pe DBPedia (o bază de date din articolele Wikipedia). Acest fișier nu este pentru oameni, ci pentru programe. Este posibil să îl interogați, să formulați interogări ca „care sunt produsele al căror ingredient principal este zahărul” și să îl încrucișați ușor cu alte seturi de date.

Datorită acestui fișier, datele OFF fac acum parte din ceea ce se numește „Linked Data” sau „Web of Data”. Datele sunt mai ușor de reutilizat.


Datele Open Food Facts vor fi corelate în curând cu multe alte seturi de date?

Detalii tehnice:

Am participat la Datalift Camp la care m-a Datalift și a fost prima dată când am folosit instrumentul Datalift. Am început să ne „jucăm” cu datele OFF pentru a vedea cum să le exprimăm în RDF.

Datele despre ingrediente și nutrienți sunt descrise de un aliment de ontologie care îl creăm cu François Scharffe de la Laboratorul de Informatică, Robotică și Microelectronică din Montpellier LIRMM și Emmanuel Nauer de la Laboratorul Lorrain de Cercetare în Calculatoare Știința și aplicațiile LORIA. Ideea este de a folosi același vocabular pentru a descrie o rețetă (cum ar fi cele folosite de proiectul Taaable în care participă Emmanuel) sau un produs alimentar fabricat.

Exportul RDF este aici: https://world.openfoodfacts.org/data/en.openfoodfacts.org.products.rdf (în XML / RDF)

Și este referit pe The Data Hub pentru a facilita descoperirea setului de date Open Food Facts.

Ingredientele sunt analizate din lista de ingrediente in text, sunt erori, formatul listelor variaza foarte mult de la un produs la altul. Am de gând să îmbunătățesc analizatorul și, în paralel, colaboratorii corectează greșelile de ortografie prezente în liste.

Adresele URL ale produselor și ale ingredientelor returnează în prezent pagina web HTML, dar voi adăuga negocierea conținutului pentru a returna RDF.

François a generat echivalențe între ingredientele Open Food Facts și aceleași ingrediente pe DBPedia. Ele sunt indicate de proprietatea owl:sameAs, de exemplu:

 <food:name> Sorbat de potasiu </food:name>
<owl:sameAs rdf:resource="https://en.dbpedia.org/resource/Sorbate_of_potassium" />
</rdf:Description>

In momentul actual nu este SPARQL punct final. În schimb, puteți încărca exportul RDF într-un instrument precum Datalift pentru a executa interogări SPARQL. De exemplu, iată una dintre primele mele întrebări (pentru a găsi produse al căror ingredient principal este zahărul):

PREFIX alimente: <https://data.lirmm.fr/ontologies/food#>
SELECT?s?WHERE cod {
   ?s <https://www.w3.org/1999/02/22-rdf-syntax-ns#type> alimente: FoodProduct.
   alimente: conţineIngredient?i.
   ?i alimente: alimente <https://world.openfoodfacts.org/ingredient/sugar>.
   ?i mâncare: rangul „1” OPȚIONAL {?s mâncare: cod?cod}.
}

Desigur, aceasta este o lucrare în desfășurare, încă lipsesc o mulțime de date din exportul RDF (mărci, categorii etc.). Acestea vor fi adăugate treptat.

Ideile, comentariile, sugestiile etc. sunt binevenite pentru a îmbunătăți aceste date, a le lega mai bine, a le reprezenta mai bine etc. Mai mult, dacă folosești datele, ar fi bine să ne spui. Vă mulțumim în avans!

Și, desigur, un mare mulțumire lui Emmanuel și François pentru ajutor!