Das Web wird oft als die größte existierende Datenbank angesehen. Es ist hingegen bloß eine auf ca. eine Milliarde unterschiedlich strukturierter Websites verteilte Ansammlung von inhomogenen Daten. Solche Daten können von Menschen leicht interpretiert werden, oft nicht so jedoch von Maschinen. Um sie einheitlich abfragen zu können, müssen sie automatisch erkannt, extrahiert und homogen formatiert werden.
Der Vortrag erläuterte die Herausforderungen der automatischen Datenextraktion und stellt Forschungsresultate aus Wien und Oxford vor. Durch Beispiele wurde illustriert, was man so alles Gutes und Böses mit Daten, aus zigtausenden Websites machen kann.