Das Semantic Web —
Maschinen surfen im Netz
Erik Wilde
ETH Zürich, TIK
http://dret.net/netdret/docs/wilde-ethworld05-semweb/
Abstract
Das Web ist als Informationsquelle für Menschen gedacht. Für viele ist dieses Medium bereits unverzichtbar geworden. Für die Zukunft besteht nun die Vision, das Web um Informationen zu erweitern, die für Maschinen verständlich sind. Dadurch wird eine neue Klasse von Anwendungen und eine wesentlich bessere Vernetzung der Informationen geschaffen. Die neuen Möglichkeiten dieses "Semantic Web" werden anhand von Prototypen und Beispielen demonstriert.
Überblick
- Verstehen Computer das Web?
- Computer und Verstehen
- Semantic Web Anfänge
- Semantic Web Visionen
- Semantic Web Anwendungen
- Abschluss
Verstehen Computer Menschen?
Verstehen Computer Web-Inhalte?
- Web-Inhalte sind multimediale Inhalte
- Medientypen markieren den Inhaltsstyp (
text/html
, image/gif
)
- der Inhalt entspricht dem Typen (HTML, Pixel)
- (fast) alle Inhaltstypen sind für Menschen gedacht
- Inhalte für menschliche Wahrnehmung (Text, Bilder, Töne)
- z.T. Metainformationen (Dublin Core in HTML, XMP in PDF)
- Maschinen haben grosse Probleme mit diesen Inhalten
- Interpretieren von Texten ist sehr schwierig
- Interpretieren von Bildern ist noch schwieriger
Computer und das heutige Web
- Computer bilden die Infrastruktur des Web
- essentiell für die Verteilung der Inhalte
- essentiell für die Darstellung der Inhalte
- "denn sie wissen nicht, was sie tun..."
- darüberhinaus nur wenig Verständnis für das Web
- Suchdienste suchen nach Zeichenfolgen, nicht nach Inhalten
- die alte Idee von intelligenten Maschinen
- tiefergehendes Verständnis von Inhalten
- weitergehende Aufgaben und Möglichkeiten
Können Computer Menschen verstehen?
System Error 487644: Definiere "verstehen"
- eine (die...) kurze Geschichte der KI
- was heisst überhaupt "verstehen" bzw. "Verständnis"?
- Fakten bilden das Fundament allen Wissens
- Beschreibung von Beobachtungen in einer gegebenen Begriffswelt
- Regeln beschreiben die Zusammenhänge von Fakten
- und ermöglichen so das Ableiten neuer Fakten
- Wahre Intelligenz: neue Regeln "erfinden"
- ... und anhand von Fakten bestätigen
- ... oder aufgrund von Fehlern verwerfen
- im Prinzip ganz einfach, aber...
KI — Theorie und Praxis
- KI — eines der grandiosesten Scheitern der Informatik
- Theorie:
- Fakten: Anna ist weiblich und hat einen Vater
- Regel:
tochter(Kind, Elter) :- vater(Elter, Kind), weiblich(Kind).
- Ableitung: Anna ist die Tochter ihres Vaters
- Praxis:
- Fakten sind oftmals nur "ziemlich genau"
- Regeln sind oftmals nur "ziemlich genau"
- Regeln ändern sich durch den Lernprozess
- Abbruch der Übung, neuronale Netze, Schweigen...
- ein Häuflein Aufrechter: cycorp bzw. opencyc.org
Was weiss cyc?
Semantic Web — Was ist das?
- maschinenverständliche Beschreibung von Ressourcen
- maschinenverständliche Regeln über Beschreibungen
- beides ermöglicht KI-ähnliche Anwendungen
"Registriere mich bei der WWW2005, suche nach einem Hotel, einem Flug und einem Mietauto, reisen kann ich zwischen dem 7.5. und dem 20.5. und will möglichst wenig zahlen, aber per Auto oder ÖV höchstens 15min brauchen zum Konferenzzentrum."
Semantic Web Steinzeit
- das Web als erstes vollkommen freies Medium
- Web-Inhalte sind weltweit unbeschränkt zugänglich
- Web-Inhalte sind weder kontrolliert noch zensiert
- potentielle Gefahren für Control Freaks
- good guys: Schutz von Kindern und Heranwachsenden
- bad guys: Verbieten missliebiger Information
Semantic Web (Steinzeit) in Action
<meta http-equiv="pics-label" content='(pics-1.1 "http://www.icra.org/ratingsv02.html" l gen true for "http://www.playboy.com" r (ca 1 la 1 lb 1 lc 1 nc 1 nd 1 ne 1 ng 1 ni 1 oa 1 ob 1 od 1 vz 1)' />
- Nudity and sexual material
- Female genitals, Female breasts, Bare buttocks, Obscured or implied sexual acts, Passionate kissing
- Language
- Explicit sexual language, Crude words or profanity, Mild expletives
- Other topics
- Promotion of tobacco use, Promotion of alcohol use, Gambling
Semantic Web Vision des W3C
- Ressourcen beschreiben sich selbst oder werden beschrieben
- das Resource Description Framework (RDF) ermöglicht Aussagen
(Resource, Property, Value)
, z.B. (ETHZ, location, Zürich)
- RDF ermöglicht Aussagen über Aussagen (wichtig für Vertrauen)
- Beschreibungen ermöglichen Schlussfolgerungen
- RDF Schema (RDF-S) ist eine einfache Schemasprache
- definieren von Konzepten wie
location
und ihrer Anwendbarkeit
- die Web Ontology Language (OWL) ist mächtiger als RDF-S
- z.B. Disjunktivität (Mann ∩ Frau = ∅), Symmetrie (Geschwister)
- Beschreibungen können gesucht werden
- SPARQL ist eine RDF-basierte Querysprache
- finde alle Ressourcen mit
(*, location, Zürich)
Wem vertraut man? Und warum?
- Grösse und Ausdehnung des Web stellen neue Fragen:
- Aussagen über Ressourcen sind eine Interpretation der Realität
- Interpretationen sind subjektiv und kontextabhängig
- global werden Subjektivität und Kontext immer wichtiger
- komplexere Aussagen sind schwerer zu überprüfen
- wichtige Kernfragen des Semantic Web sind sozial/kulturell:
- vertraue ich den Aussagen zu einer Resource?
- vertraue ich den daraus gezogenen Schlussfolgerungen?
- und den auf diesen Schlussfolgerungen basierenden Aktionen?
Möglichkeiten und Grenzen
- ⊕ klar abgegrenzte Anwendungsbereiche
- überschaubare Begriffsmenge
- Kosten für neue Informationen und Änderungen
- ⊖ allgemeine Informationen auf dem Web
- unüberschaubare und nicht gemanagte Begriffsmenge
- erhebliche Kosten für neue Informationen und Änderungen
- kein erkennbarer Pay-off
Anwendungsbereiche des Semantic Web
- klar abgrenzbare Thematik
- klar abgegrenzte Thematik
- Bereitschaft zur Selbstbeschränkung
- Bereitschaft, initiale Kosten zu tragen
- Bereitschaft, die Lernkurve zu akzeptieren
ShaRef & Semantic Web
- ShaRef beschreibt Ressourcen
- Ressourcen haben verschiedene Typen (Buch, Artikel, Webseite)
- Ressourcen haben Eigenschaften (Titel, Autor, Datum)
- ShaRef vernetzt Ressourcen
- Ressourcen können aufeinander verweisen
- Ressourcen verweisen auf gemeinsame Begriffe
- Beschreibungen können als RDF exportiert werden
- oder als HTML, oder als BibTeX, oder als EndNote, ...
- ist die Bedeutung erfasst, ist die Repräsentation ein Detail
Zusammenführen von Beschreibungen
- Friend of a Friend (FOAF) beschreibt soziale Netze
- beschriebene Ressourcen haben Eigenschaften (Name, Email, ...)
- und Beziehungen zu anderen Ressourcen (soziale/berufliche Kontakte)
- vCard beschreibt Addressbücher
- Ressourcen sind Einträge im Adressbuch
- Eigenschaften sind Namen, Adressen, Geburtsdaten, ...
- FOAF und vCard können zusammengeführt werden
- möglich durch die gemeinsame Nutzung von RDF
- das resultierende Netz enthält FOAF und vCard Infos
Abschluss
- Danke für Ihren Besuch!
- weiterführende Links:
- Fragen oder Kommentare: eMail