Pressemitteilung 2022/151 vom

?ber 75 Wissenschaftler:innen forschen in den n?chsten drei Jahren am Kern eines europ?ischen Open Web Index (OWI) als Grundlage für eine neue Websuche in Europa. Ziel des Programms ist es, die Dominanz au?ereurop?ischer Internetkonzerne wie Google oder Microsoft zurückzudr?ngen. Das Projekt wird von der Europ?ischen Kommission in H?he von 8,5 Millionen Euro im Rahmen des Projekts ?Horizon Europe“ gef?rdert. Eine tragende Rolle spielt dabei die Informatik der Universit?t Leipzig um Juniorprofessor Dr. Martin Potthast. Im Interview spricht er über die Bedeutung dieses Forschungsprojekts.

Was kann man sich unter einem europ?ischen Open Web Index vorstellen?

Ein Index dient Suchmaschinen zur massiven Beschleunigung des Abgleichs aller Webseiten mit einer Suchanfrage. Viele verschiedene Suchalgorithmen werden je nach Situation dynamisch gew?hlt. Es braucht aber nur einen Index, auf den alle Algorithmen zugreifen. Dieser ist damit eine Art Schlüssel zum Bau moderner Suchmaschinen. Und daher ist der Index der wenigen gro?en kommerziellen Suchmaschinen nicht ?ffentlich einsehbar oder gar frei verfügbar. Die Tatsache, dass ausschlie?lich au?ereurop?ische Konzerne Suchmaschinen in Europa anbieten, wird regelm??ig kritisch diskutiert. Unser Ziel ist daher, die Grundlagen für einen offenen Web-Index zu erforschen und einen ersten Prototypen zu entwickeln. Dieser wird verfügbar sein und demonstriert, dass Europa die digitale Souver?nit?t auf eine Weise erlangen kann, die Innovation und Diversit?t f?rdert.

Mehrere europ?ische Forschungszentren werden an diesem Index arbeiten. ?Open“ bedeutet aber auch, dass sich jeder an der Entwicklung beteiligen kann, dass das also ein Open Source-Projekt ist?

Es ist geplant, externe Partner für erste Tests und gemeinsame Arbeit zu gewinnen sowie eine Open-Source-Community zu etablieren. Ein Vorbild für eine Community k?nnten die seit Kurzem aufkommenden Initiativen wie BigScience und LAION sein, in der gro?e Konsortien aus Forschenden und Citizen Scientists zusammenarbeiten, um den neuronalen Netzen GPT-3 zur Texterzeugung und DALL-E zur Bilderzeugung, die in letzter Zeit Furore machen, freie Alternativen gegenüberzustellen. ?ltere und überaus erfolgreiche Beispiele für Projekte dieser Art sind OpenStreetMaps, die Wikipedia und nicht zuletzt das Internet-Archive. Wir wollen aber auch weitere Partner aus Wissenschaft und Wirtschaft gewinnen, um zu zeigen, dass ein offener und verteilter Index auch kommerzielle Aussichten hat. Eine zukünftige Kooperation mit dem ortsans?ssigen ?Center for Scalable Data Analytics and Artificial Intelligence“ ScaDS.AI Dresden Leipzig liegt nahe.

Die im Projekt vertretenen Partner bestehen aus ausgew?hlten europ?ischen Universit?ten und Institutionen, darunter auch die Europ?ische Organisation für Kernforschung CERN, die mit ihrer jeweiligen Expertise und ihren Ressourcen die erste Grundlage für einen offenen Web-Index legen. Am Ende werden alle erstellten Ressourcen und m?glichst alle gesammelten Daten prinzipiell jedem zur Verfügung gestellt werden, sodass jede Person und jede Institution Beitr?ge leisten sowie eigene Ideen und Produkte verwirklichen kann.

Bei der Websuche und -analyse spielt heute das Sammeln von Nutzer:innendaten eine gro?e Rolle. Wird dies auch für eine offene Suchmaschine n?tig werden?

Moderne Suchalgorithmen basieren auf Verfahren des Maschinellen Lernens aus m?glichst vielen Beispielen. Diese Beispiele werden aus der Analyse des Nutzer:innenverhaltens auf Suchergebnisseiten gewonnen. Es w?re sch?n, wenn ich an dieser Stelle versprechen k?nnte, dass unser Projekt eine neue Technologie entwickeln wird, mit der die Sammlung dieser Daten in Zukunft ausbleiben und trotzdem konkurrenzf?hige Suchergebnisse gefunden werden k?nnte. Das ist allerdings nach gegenw?rtigem Stand der Forschung au?er Reichweite, fast schon utopisch. Interessanter ist viel mehr die Frage des Datenschutzes bei einer offenen Suche. Auch hier werden diese Daten nicht an Dritte weitergegeben, aber anders als bei den kommerziellen Anbietern wird eine Zweitverwertung der Daten für nicht dem Suchzweck dienliche Interessen unterbunden. Das erfasste Nutzer:innenverhalten wird hingegen allen Suchmaschinen, die auf den offenen Web-Index aufsetzen, ausschlie?lich in Form von fertig angelernten Suchalgorithmen anonym zur Verfügung gestellt. Alle profitieren von allen anderen, die das auch tun. Die Qualit?t der Suchergebnisse aller Suchmaschinen wird dadurch optimiert und die Daten k?nnen nicht anderweitig zweckentfremdet werden.

Das Projekt soll einen wichtigen Beitrag zur Demokratisierung der Indexerstellung für zukünftige Suchmaschinen in der EU leisten. Was ist darunter zu verstehen?

Wir glauben, dass in Zukunft nicht nur eine Suchmaschine den Markt dominiert, egal ob europ?isch oder nicht. Stattdessen wird der offene Index als eine Art Plattform dienen, auf der Anbieter von Suchmaschinen sich auf ihre jeweiligen M?rkte konzentrieren k?nnen. Dies führt einerseits zu besseren Suchergebnissen, da spezialisierte Suchmaschinen leistungsf?higer sind als solche, die eine ?universelle“ Suche für alles und jeden anbieten. Gleichzeitig wird so eine gr??ere Konkurrenz und damit mehr Innovation und Fortschritt gef?rdert.

Welchen Beitrag leistet die Universit?t Leipzig?

Wir werden einen wichtigen Beitrag zur Index-Erzeugung leisten, also der inhaltlichen Analyse und Aufbereitung gesammelter Webseiten für den offenen Index, und leiten das entsprechende Teilprojekt. Darüber hinaus beteiligen wir uns an der Entwicklung neuer Suchalgorithmen mit dem Ziel, eine Reihe neuartiger Suchanwendungen zu entwickeln, darunter die Suche nach Argumenten zu kontroversen Themen im Web und die ?Conversational Search“, das hei?t die ?Suche im Dialog“, zum Beispiel mit Sprachassistenten.

Dies geschieht in enger Kooperation unter anderem mit Forschern der Bauhaus-Universit?t Weimar und der Martin-Luther-Universit?t Halle-Wittenberg. Wir arbeiten seit mehreren Jahren sehr eng zusammen als ?Webis-Gruppe“, einer universit?tsübergreifenden Forschungsgruppe in den Bereichen Sprachtechnologien und 亚洲通_亚洲通官网¥娱乐网址r Intelligenz. Unter anderem betreiben wir mit dem ?Immersive Web Observatory“ eine Infrastruktur zur Analyse von Web-Archiven im Petabyte-Bereich, die in das Projekt eingebracht wird. Die Webdaten hierfür beziehen wir exklusiv vom Internet Archive, dem einzigen ?ffentlichen Anbieter von Webdaten, die bis in die 1990er-Jahre zurückreichen und die in Umfang und Diversit?t mit den nicht-?ffentlichen Webdaten Googles von damals bis heute konkurrieren k?nnen. Dieser Zugriff auf Petabytes von Webdaten, der in dieser Form in Europa einmalig ist, erlaubt, Analyseverfahren zu entwickeln, die es mit denen kommerzieller Suchanbieter aufnehmen k?nnen. Die von uns entwickelten Verfahren werden erstmals auch ?ffentlich verfügbar sein.

?ber die Webis-Gruppe:

Die Webis-Gruppe befasst sich mit wichtigen Herausforderungen der Informationsgesellschaft. Sie erforscht Grundlagen, entwickelt Technologien und implementiert und evaluiert Prototypen für zukünftige Informationssysteme. Schwerpunkte sind dabei Web Mining und Retrieval, maschinelles Lernen, Computerlinguistik und symbolische 亚洲通_亚洲通官网¥娱乐网址 Intelligenz.