Paperless-ngx auf dem Raspberry Pi – erstaunlich gut – Teil 1

Bei Paperless-ngx handelt es sich um eine schlanke Dokumentenverwaltung, die sich rasch im Rahmen eines „papierlosen“ Arbeitsplatzes als ausgesprochen nützlich erweisen kann. Der Unterschied zu gewohnten Anwendungen wie Evernote, OneNote oder Joplin: Bei Paperless-ngx handelt es sich um einen privaten Dokumentenserver. Das hat den großen Vorteil, dass man mit allen Geräten und Systemen auf die Unterlagen zugreifen kann – Windows, MacOS, Android oder iOS. Man öffnet den Browser und bekommt sofort sein Archiv angezeigt. Allerdings schrecken „normale“ Anwender zurück, wenn man von ihnen erwartet, eine Serveranwendung zu installieren. Im Falle von Paperless-ngx kann man sich die Sache einfach machen: Ein paar Installationszeilen genügen – und schon funktioniert das System.

Oft wird Paperless-ngx auf Geräten wie z.B. einem Synology-NAS installiert, den man für Backups oder als Medienserver ohnehin schon im Haus stehen hat. Ich nutze aus einer Reihe von Gründen lieber einen Raspberry Pi, der nur ein paar Euro kost und kaum größer als eine Zigarettenschachtel ist. Dazu später mehr.

Was kann Paperless-ngx? Und werde ich davon abhängig?

Meine erste Frage ist immer: Funktioniert mein Dokumentenarchiv problemlos weiter, wenn das Tool irgendwann einmal nicht mehr funktioniert? Ja. Man kann 1:1 die gewohnte Ordnerstruktur übernehmen, die man sich die vergangenen Jahre eingerichtet hat. Und die bleibt – samt Dateinamen-Muster usw. – auch erhalten, wenn es Paperless-ngx einmal nicht mehr gibt oder das Servergerät einen Stromschlag bekommt oder ein Wasserrohrbruch alles verwüstet.

Meine zweite Frage ist dann: Und, was kann es so? Daher soll es in diesem ersten Teil darum gehen, sich einen Überblick zu verschaffen.

Erster Überblick

[Ansicht mit Klick vergrößern]

Die gespeicherten Dokumente kann man sich in verschiedenen Layouts anzeigen lassen. Neben der oben abgebildeten Thumbnail-Ansicht gibt es noch eine erweiterte Ansicht, die zusätzlich einen Text-Teaser liefert. Eine Tabellenansicht ist auch dabei.

Alle Ansichten enthalten Such-, Filter- und Bearbeitungsfunktionen. Auch die Bearbeitung von mehreren Dokumenten gleichzeitig – etwa das Hinzufügen eines Tags – lässt sich direkt in der Hauptansicht bewerkstelligen.

Der eigentliche Startbildschirm von Paperless-ngx ist ziemlich clean. Neben einigen Menüpunkten stellt er hauptsächlich den Button für den Upload neuer Dateien zur Verfügung. Zusätzlich kann man eigene „gespeicherte Ansichten“ (dazu später mehr) einblenden.

Man kann also neue Dokumente einfach via Drag’n’Drop auf die Startseite ziehen, um diese dem Archiv hinzuzufügen. Das klappt auch mit mehreren Dateien gleichzeitig. Es gibt noch eine Reihe weiterer Möglichkeiten, z.B. der direkte Weg vom Scanner oder von einem Nextcloud-Ordner – aber das kriegen wir noch ;-).

Die Seitenleiste, die man auch einklappen kann, stellt die wichtigsten Punkte zur Verfügung: Ansichtswechsel zwischen Startseite und Dokumentüberblick, eigene Filter, bereits geöffnete Dokumente usw. Dazu alle Einstellungen für Tags, Pfade oder die allgemeine Systemverwaltung (z.B. Design-Anweisungen für einen dunklen Modus). Das Layout passt sich jeder Bildschirmgröße an, ist also auch gut auf einem Tablet oder Smartphone zu nutzen.

Zentrale Elemente von Paperless-ngx

Zu jedem Dokument gibt es eine Vorschau, die in einem Popup-Fenster eingeblendet wird, wenn man auf das entsprechende Icon mit der Maus zeigt.

Filter und gespeicherte Ansichten

Sofern man zuvor eine Suche durchgeführt hat: gefundene Suchbegriffe werden bereits in dieser Vorschau markiert.

Neben der Suche steht auch eine Reihe von Filtern zur Verfügung. Am Beispiel der Tags sieht man, dass sowohl UND- als auch ODER-Verknüpfungen recht leicht umgesetzt werden können. In der Abbildung wurden alle Dokumente gefunden, die den Tag „Eingang“ ODER „Steuer“ aufweisen. Zusätzlich wird die Anzahl der markierten Elemente gezeigt. Und mit einem Klick auf das Häkchen wird das Filter-Kriterium wieder entfernt.

Auch Kombinationen verschiedener Filterkriterien sind möglich. Das Tag-Beispiel von eben wurde noch um die Suche nach dem Stichwort „Empfänger“ ergänzt. Sehr nützlich: Derartige Such- und Filtervorgänge lassen sich speichern, so dass man sich nicht immer wieder neu die Kriterien auswählen muss. Man kann einen eigenen Namen vergeben und diesen unter „Ansicht“ speichern. Klickt man nun eine der gespeicherten Ansichten an, so erhält man sofort die Resultate der Suche. Die Ergebnisse sind dabei auf dem aktuellen Stand – neue Dokumente werden also automatisch in die Ergebnisliste aufgenommen.

Wenn man mag, kann man eine gespeicherte Ansicht auch als Widget auf die Startseite legen oder in die Seitenleiste aufnehmen. Ein Klick genügt später – und man hat alle Steuerunterlagen für 2023 zur Hand. Auch immer dabei: „Filter zurücksetzen“ – auch hier genügt ein Klick und schon sieht man wieder alle Dokumente.

Dokumenteninfos

Man kann Dokumente mit zusätzlichen Infos versehen. Wenn nun jemand denkt: „Hilfe! Was für ein Pflegeaufwand!“ – dann kann er das auch sein lassen. Paperless-ngx funktioniert auch ausgesprochen unkompliziert: Datei reinziehen – fertig. Oder: Datei reinziehen – Tags vergeben – fertig. Später werden wir noch sehen, dass Paperless-ngx sogar über einen kleinen (lokalen) KI-Anteil verfügt und „lernt“, wie man seine Dokumente gerne mit Informationen versehen möchte. Auch werden Datumsangaben meist erkannt, ausgelesen und in das „Ausgestellt am“-Feld vom System eingetragen.

Das aktuelle Dokument wird während der Eintragungen angezeigt. Die meisten Bereiche müssen nicht groß erklärt werden. Wichtig für unser System wird noch das Feld „Speicherpfad“ werden. Und „Korrespondent“ kann für einige Dokumente sinnvoll sein, z.B. für den Austausch mit bestimmten Kunden/Klienten, dem Finanzamt oder Arbeitgeber. Zwar könnte man einen Tag bilden wie „Kunde Maier“, aber dann hat man auf der Übersichtsseite ein buntes Gewimmel an Tags. So klickt man später im Reiter „Korrespondent“ einfach „Kunde Maier“ an oder „Hochschule“ – und schwupp: alle entsprechenden Dokumente werden gefiltert.

OCR

Der Reiter „Inhalt“ zeigt den puren Text eines Dokuments an. Via OCR erkennt Paperless-ngx auch den Inhalt von Fotos und kann später danach suchen.

Für eine Buchseite würde ich zwar eigentlich eine Scanner-App auf dem Smartphone verwenden, aber so sieht man etwas besser, dass die Vorlage ein Foto ist. Nebenbei – auch Scans über das Smartphone kann man automatisieren.

Download der Dokumente

Die eingegebenen Zusatz-Infos tauchen später auch wieder auf den Überblicksseiten auf.

Möchte man die Dateien wieder zur Verfügung haben, so kann man eine Auswahl treffen und die Dokumente gebündelt downloaden. Zusätzlich kann man ankreuzen, ob man die Original-Datei benötigt. Bei unserem Beispiel-Bild speichert Paperless-ngx zwei Versionen ab:

  1. das ursprüngliche Foto
  2. eine PDF-Version des Fotos mit dem erkannten Text

Diese Zweiteilung betrifft alle Dokumente – man hat also immer die Original-Version, die Paperless nicht anrührt, weiter zur Verfügung.

Möchte man nur eine Einzel-Datei laden, so gibt es einen kürzeren Weg, der kein Zip-Archiv benötigt: In den Ansichten ist immer auch ein kleiner Download-Pfeil dabei.

Bisherige Teile der Paperless-ngx-Serie:
Teil 1: Ausführlicher Überblick
Teil 2: Suche & Tags
Teil 3: consume-Ordner – Einsatz von Scannern
Teil 4: Speicherpfade konfigurieren
Teil 5: Installation auf dem Raspberry Pi
Teil 6: Neue Funktionen in Version 2
Teil 7: Dokumente unterwegs über das eigene Modem abrufen
Teil 8: Exportfunktion nutzen
Teil 9: Update durchführen
Teil 10: Das Rundum-sorglos-Backup
Teil 11: Mail-Abruf mit vielen Extras
Teil 12: Mein Alltag mit Paperless-ngx
Teil 13: Ein Quanten-Code für das Papier-Archiv
FORUM für Fragen eröffnet
Teil 14: Automatisierte Ablage auf Speicherpfaden
Teil 15: Neue Funktion für das Verbinden und Trennen von Dokumenten

10 Kommentare

  • villon

    Hallo Herbert,
    vielen Dank für die ausführliche Doku, die ich mir in Ruhe in den anstehenden Herbstferien antun werde.
    Grüße villon

    • Herbert

      Gern geschehen 🙂 Es kommen ja noch einige Teile, dann lohnt sich in den Herbstferien die Lektüre – und man findet die Zeit, auch gleich mal was auszuprobieren.

  • Nils

    Hallo Herbert,
    selten habe ich eine so gute, auf das wesentlich beschränkte und trotzdem ausführliche Dokumentation (Blog) gesehen, wie diese(n) hier. Ich kommentiere eigentlich auch nie, aber hier muss ich einfach einen „Daumen hoch“ dalassen!

  • NILS

    Noch ein Nachtrag: Hatte die Installation auf einem Raspberry Pi 3, den ich noch rumliegen hatte ausprobiert. Aber dieser kommt sehr sehr schnell an seine Grenzen. Habe mir statt eines Pi 5 oder 400, einen Intel N100 Mini-PC mit 512GB SSD und 16GB RAM geschossen für den gleichen Preis, den mich ein Pi 5 gekostet hätte.
    An der Stelle noch ein Danke, dass du auch die Export/Import Funktion erklärt hast. Aktuell läuft mein paperless noch auf einer VM und habe schon eine Migration zu einer anderen VM getestet, funktionierte Problemlos. Werde dann auch auf den Mini-PC migrieren und die VM als „Dev System“ weiter nutzen.

  • Nicolai Geider

    Moin Herbert,
    vielen Dank für dieses super tolle paperless Serie!

    Ich habe paperless-ngx soweit eingerichtet und es läuft alles. Habe eine Mailabfrage auf meine Rechnungsmail. Läuft. Aber ein Lieferant sendet mir Rechnungen mit Titeln: „RL_123456.pdf“.
    Nun gelingt es mir nicht das paperless diese Rechnung automatisch in Rechnung_123456.pdf umbenennt.

    Hast du eine Idee wie ich das lösen kann?

    PS: Würde dir auch gerne einen Kaffee per PP ausgeben für diese Wissenssammlung 🙂

    • Herbert

      Danke für die nette Rückmeldung! Hm, zuerst würde ich an die Funktion Arbeitsabläufe denken. Aber damit kommt man wahrscheinlich nicht ganz hin. Eher würde der Weg über reguläre Ausdrücke klappen können. Mal auf die Schnelle – Änderungen in der YAML-Datei:
      Umgebungsvariable: PAPERLESS_FILENAME_FORMAT={created_year}/{correspondent}/{title} bzw.
      PAPERLESS_FILENAME_FORMAT={created_year}/{correspondent}/Rechnung_{title}
      Dann:

      1. Aktivieren der Ausdrücke: PAPERLESS_FILENAME_FORMAT_REMOVE_NONE=True
      2. „RL“ in „Rechnung“ umwandeln: PAPERLESS_FILENAME_FORMAT={created_year}/{correspondent}/{title:re.sub(‚RL_‘, ‚Rechnung_‘, ‚{}‘)

      Nach den Änderungen:

      docker-compose run –rm webserver document_renamer

      Habe ich aber noch nicht ausprobiert – vorher Sicherung machen und dann mal testen 🙂

Eine Antwort schreiben

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert