Dropbox entwickelt Volltext-Suchmaschine »Nautilus«
Mit »Nautilus« führt Dropbox eine personalisierte Volltext-Suchmaschine ein, die Nutzern helfen soll, die jeweils relevantesten Dokumente für eine bestimmte Suchanfrage zu finden. Das erfordert die Fähigkeit, sich maschinelle Intelligenz in verschiedenen Stadien in der Such-Pipeline zunutze zu machen – angefangen bei inhaltsspezifischem maschinellen Lernen, beispielsweise Systemen für das Bildverständnis bis hin zu Lernsystemen, die in der Lage sind, Suchergebnisse anhand der jeweiligen Nutzervorlieben besser einzustufen. Darüber hinaus erfordern solche Systeme zahlreiche Iterationen, bis sie passgenau funktionieren. Daher ist es entscheidend, mit verschiedenen Algorithmen und Subsystemen zu experimentieren und das System Schritt für Schritt zu optimieren.
Häufig wechselnde Inhalte bei Suchen
Im Gegensatz zu Web-Suchmaschinen spielten bei der Entwicklung von Nautilus nicht nur unterschiedliche Vorlieben und Verhaltensweisen bei Suchläufen eine Rolle, sondern auch die Tatsache, dass jeder Nutzer Zugriff auf einen individuellen Dokumentensatz hat. Es lassen sich nur solche Inhalte durchsuchen, auf die der abfragende Nutzer zum Zeitpunkt der Suche Zugriff hat. Zudem ändern sich Teile der Inhalte, die für die Suche indexiert sind, recht häufig. Beispielsweise bei Nutzern, die an einem Bericht oder einer Präsentation arbeiten. Im Zuge der Erarbeitung werden immer wieder neue Versionen gespeichert, was sich auf die Suchbegriffe auswirken kann, über die das Dokument abrufbar sein sollte.
Die Entwicklungsziele von Nautilus lauteten unter anderem, eine Grundlage für die Implementierung intelligenter Ranking- und Retrieval-Features für Dokumente zu schaffen und ein flexibles System zu erstellen, in dem Entwickler die Pipelines für die Indexierung und das Query Processing für laufende Experimente problemlos anpassen können.
Konkrete Weiterentwicklungen sind geplant
Nach einer Qualifizierungsphase ist Nautilus nun die primäre Suchmaschine bei Dropbox und wird auch in Zukunft kontinuierlich verbessert und weiterentwickelt. Es sollen neue Funktionen erkundet werden wie das Erweitern des bestehenden Retrieval-Algorithmus mit Posting-Listen durch ein distanzbasiertes System mit einem Einbettungsraum, die Möglichkeit zur Suche nach Bild-, Video- und Audiodateien mittels automatischem Tagging und die verbesserte Personalisierung mittels zusätzlicher Nutzeraktivitätssignale.