Screenshot des Crawlers

Der Screenshot zeigt die Benutzeroberfläche des Tools das speziell für das strukturierte Crawling und die Verarbeitung von Google Gemini-Chat-URLs entwickelt wurde. Hier ist eine detaillierte Beschreibung der einzelnen Bereiche und Funktionen:


🧭 Navigationsleiste (oben)

  • Tabs:

    • Crawler: Hauptmodul zum automatisierten Abrufen von Inhalten.
    • Dokumenten-Suche: Zur Volltextsuche nach vollständigen Chats welche bereits in die Datenbank gespeichert wurden.
    • Granulare Suche: Für feinere Filterung und finden von einzelnen Prompts und den segmentierten Export.
  • Buttons:

    • Login Browser: Startet eine Browserinstanz um Cookie Consent zu überwinden oder eine angemeldete Session zu starten bei der eine Anmeldung in einen Account für den Zugriff auf private Chats zu erhalten.
    • URLs laden: Importiert eine Liste von Ziel-URLs für die Verarbeitung.
  • Textfeld „Target URLs“:
    Enthält die geladene URL-Liste mit Google Gemini-Share-Links, z. B.:

    https://gemini.google.com/share/blablub
    

⚙️ Einstellungsbereich (Mitte)

Hier werden die Parameter für den Crawl- und Exportprozess festgelegt:

  • Output-Verzeichnis:
    → Zielordner (Output Ordner) für die exportierten Dateien.

  • Modus:

    • Einzeln: Jeder Chat wird separat verarbeitet.
    • Zusammen: Mehrere Chats werden zusammengeführt.
    • Alles: Es werden Separate Dateien für jeden Chat + Index erstellt, zudem wird eine zusammengefasste Datei mit allen Chats der verarbeiteten URLs erstellt.
  • Layout-Optionen:
    Steuerung des Layouts und der Formatierung der Ausgabe.

    • PDF → Es werden entsprechende PDF Dateien erzeugt 
    • Duplex → Die PDF Dateien werden für den Bruchdruck optimiert
    • Seitenzahl auf Export: oben oder unten
    • KI im TOC → Modellantworten der Chats werden in den Export einbezogen
    • Rich Index → Zitierbares Inhaltsverzeichnis
  • DB & Debug:

    • Nur Indexieren: Nur Metadaten erfassen und in Datenbank speichern.
    • Raw HTML speichern: Rohdaten für spätere Analyse und Debugging sichern.
  • Buttons:

    • START GEMINI: Startet den Gemini-Crawler.
    • GENERAL CRAWLER: Allgemeiner Crawl-Modus für andere Quellen.

📋 System Log (unten)

Ein Echtzeit-Log zeigt den Fortschritt der Verarbeitung:

  • Jeder Eintrag enthält:
    • Zeitstempel
    • Verarbeitungsstatus
    • URL
    • Titel oder Beschreibung des Chatinhalts

Beispiel:

[GEMINI 14:59:47] Verarbeitet: Tensorboard log Verzeichnis Konflikt
[GEMINI 14:59:47] Verarbeitet: Jupyter und LLM-Training auf Pop!_OS
[GEMINI 15:00:47] Erstelle Zusammenfassung...
[GEMINI 15:00:48] Fertig.

🧠 Funktionaler Überblick

Das Tool automatisiert folgende Schritte:

  1. Crawling von Gemini-Chat-URLs
  2. Extraktion und Verarbeitung der Inhalte
  3. Export als PDF oder HTML mit strukturiertem Layout
  4. Zusammenführung mehrerer Chats zu einem Dokument
  5. Indexierung und Debug-Optionen für Analyse und Nachvollziehbarkeit