Dropbox entwickelt Volltext-Suchmaschine »Nautilus«

Nautilus besteht aus den Teilsystemen Indexierung und Serving (Bild: Dropbox)

24022-Dropbox-Nautilus

Nautilus besteht aus den Teilsystemen Indexierung und Serving (Bild: Dropbox)

Mit »Nautilus« führt Dropbox eine personalisierte Volltext-Suchmaschine ein, die Nutzern helfen soll, die jeweils relevantesten Dokumente für eine bestimmte Suchanfrage zu finden. Das erfordert die Fähigkeit, sich maschinelle Intelligenz in verschiedenen Stadien in der Such-Pipeline zunutze zu machen – angefangen bei inhaltsspezifischem maschinellen Lernen, beispielsweise Systemen für das Bildverständnis bis hin zu Lernsystemen, die in der Lage sind, Suchergebnisse anhand der jeweiligen Nutzervorlieben besser einzustufen. Darüber hinaus erfordern solche Systeme zahlreiche Iterationen, bis sie passgenau funktionieren. Daher ist es entscheidend, mit verschiedenen Algorithmen und Subsystemen zu experimentieren und das System Schritt für Schritt zu optimieren.

Häufig wechselnde Inhalte bei Suchen

Im Gegensatz zu Web-Suchmaschinen spielten bei der Entwicklung von Nautilus nicht nur unterschiedliche Vorlieben und Verhaltensweisen bei Suchläufen eine Rolle, sondern auch die Tatsache, dass jeder Nutzer Zugriff auf einen individuellen Dokumentensatz hat. Es lassen sich nur  solche  Inhalte  durchsuchen,  auf  die  der  abfragende  Nutzer  zum  Zeitpunkt der Suche Zugriff  hat.  Zudem ändern sich Teile der Inhalte, die für die Suche indexiert sind, recht häufig. Beispielsweise bei Nutzern, die an einem Bericht oder einer Präsentation arbeiten. Im Zuge der Erarbeitung werden immer wieder neue Versionen gespeichert, was sich auf die Suchbegriffe auswirken kann, über die das Dokument abrufbar sein sollte.

Die Entwicklungsziele von Nautilus lauteten unter anderem, eine Grundlage für die Implementierung intelligenter Ranking- und Retrieval-Features für Dokumente zu schaffen und ein flexibles System zu erstellen, in dem Entwickler die Pipelines für die Indexierung und das Query Processing für laufende Experimente problemlos anpassen können.

Konkrete Weiterentwicklungen sind geplant

Nach einer Qualifizierungsphase ist Nautilus nun die primäre Suchmaschine bei Dropbox und wird auch in Zukunft kontinuierlich verbessert und weiterentwickelt. Es sollen neue Funktionen erkundet werden wie das Erweitern des bestehenden Retrieval-Algorithmus mit Posting-Listen durch ein distanzbasiertes System mit einem Einbettungsraum, die Möglichkeit zur Suche nach Bild-, Video- und Audiodateien mittels automatischem Tagging und die verbesserte Personalisierung mittels zusätzlicher Nutzeraktivitätssignale.

About the Author: Annette Stadler

Annette Stadler ist IT-Journalistin und leitet das Online-Portal ECMGUIDE.