Vogelstimmen erkennen kostenlos online und mit App

Q: Kann ich Vogelstimmen auch ohne Internet erkennen lassen?

Aktuell benötigt die KI-Auswertung eine Internetverbindung. Sie können Aufnahmen offline machen und später hochladen, sobald Sie wieder Empfang haben.

Vogelstimmen erkennen kostenlos online und mit App – das ist heute in Sekunden möglich. Mit unserer App OpenInsect nehmen Sie den Gesang oder Ruf eines Vogels einfach mit dem Smartphone-Mikrofon auf, und eine bioakustische KI bestimmt die Art – gratis, ohne Anmeldung, mit GPS-gestützter Regional-Logik und einem wissenschaftlich aussehenden Spektrogramm zu jedem Treffer.

In diesem Ratgeber zeigen wir Ihnen, wie die Vogelstimmen-Erkennung in OpenInsect funktioniert, welche Vogelarten zuverlässig identifiziert werden, wie Sie möglichst saubere Aufnahmen hinbekommen und wie sich die App im Vergleich zu BirdNET, Merlin Bird ID oder Naturblick schlägt.

Vogelstimmen erkennen mit dem Smartphone – schneller als nachschlagen

Wer früher einen unbekannten Vogelruf bestimmen wollte, hatte zwei Optionen: ein dickes Bestimmungsbuch oder die Erinnerung an die letzte Ornithologie-Stunde. Heute reicht ein Smartphone. Vogelgesang, Vogelruf oder Vogelstimme – KI-Modelle für Bioakustik erkennen typische Frequenzmuster, Silbenstruktur und Rhythmus eines Rufs in wenigen Sekunden zuverlässig.

OpenInsect setzt auf eine eigens entwickelte KI-Pipeline mit einem auf Tierstimmen trainierten Analyse-Layer. Sie müssen also keine Vogelarten bestimmen, sondern halten einfach das Mikrofon Richtung Gehölz, Garten oder Park und bekommen Sekunden später die wahrscheinlichste Art angezeigt – inklusive Konfidenz-Score, regionaler Plausibilität und einer professionellen Visualisierung der Aufnahme.

So funktioniert die Vogelstimmen-Erkennung in der OpenInsect-App

Die Audio-Funktion ist Teil der kostenlosen OpenInsect-App für iOS und Android. Sie installieren die App, öffnen die Aufnahme-Seite und folgen drei kurzen Schritten:

Schritt 1 – Mikrofon öffnen

Auf der Aufnahme-Seite finden Sie neben Foto und Video einen Mikrofon-Button. Beim Tippen öffnet sich der Audio-Recorder mit einer Live-Waveform, die Ihre Eingangslautstärke in Echtzeit anzeigt. So sehen Sie sofort, ob der Vogel laut genug ist oder ob Wind und Straßenlärm das Signal übersteuern.

Schritt 2 – Bis zu 60 Sekunden aufnehmen

Die App lässt Sie bis zu 60 Sekunden Audio aufzeichnen. Das reicht für mehrere Strophen oder einen vollständigen Gesangs-Loop. Beenden Sie die Aufnahme manuell oder lassen Sie automatisch nach 60 Sekunden stoppen. GPS-Koordinaten werden – sofern Sie das beim ersten Start erlaubt haben – automatisch erfasst, damit das Modell regional plausible Arten bevorzugt.

Schritt 3 – KI-Analyse & Spektrogramm

Beim Hochladen geht die Audiodatei an unseren Server. Dort wird parallel ein Spektrogramm mit Frequenzachse von etwa 1–12 kHz sowie eine bereinigte Wellenform generiert. Beides erscheint zusammen mit dem KI-Treffer in Ihrem Beitrag – das Ergebnis sieht aus wie aus einem wissenschaftlichen Tool und lässt sich als hochauflösendes Bild teilen.

Spektrogramm und Waveform werden serverseitig für jede Aufnahme erzeugt – mit Frequenzachse und Zeitachse wie bei einem ornithologischen Fachprogramm.

Was die App alles kann

OpenInsect ist nicht reine Vogelstimmen-App, sondern eine kombinierte Bestimmungs-Plattform für Foto, Video und Audio. Die folgende Tabelle zeigt, wann welcher Modus die besten Ergebnisse liefert:

Modus	Wofür geeignet	Genauigkeit
Foto	Sitzende Vögel, Insekten, Pflanzen, Pilze, Schimmel, Bäume	sehr hoch bei guter Belichtung
Video	Bewegungsmuster, Flugbild, Verhalten	hoch – mehrere Frames werden ausgewertet
Audio	Vogelgesang, Eulenrufe, Spechtklopfen, Frösche, Grillen, Zikaden	am besten bei Vögeln (klassische bioakustische Domäne)

Zusätzlich gibt es Community-Funktionen: ein Punkte-System für jeden erfolgreichen Upload, ein Streak-System für regelmäßiges Beobachten, einen Feed mit allen öffentlichen Sichtungen und die Möglichkeit, anderen Usern zu folgen oder unter Beiträgen zu kommentieren.

Welche Vogelarten erkennt OpenInsect?

Die KI ist auf die häufigsten heimischen Singvögel Mitteleuropas trainiert, kennt aber auch viele weitere Arten. Die folgende Auswahl zeigt, was zuverlässig erkannt wird:

Amsel, Singdrossel, Misteldrossel, Wacholderdrossel
Kohlmeise, Blaumeise, Tannenmeise, Haubenmeise, Sumpfmeise
Buchfink, Bergfink, Grünfink, Stieglitz, Erlenzeisig, Girlitz
Rotkehlchen, Hausrotschwanz, Gartenrotschwanz, Nachtigall
Zaunkönig, Heckenbraunelle, Mönchsgrasmücke, Klappergrasmücke, Gartengrasmücke, Dorngrasmücke
Zilpzalp, Fitis, Waldlaubsänger, Sumpfrohrsänger, Teichrohrsänger
Star, Pirol, Kernbeißer, Gimpel, Goldammer, Rohrammer
Kleiber, Gartenbaumlaufer, Waldbaumlaufer
Buntspecht, Grünspecht, Kleinspecht, Schwarzspecht
Kuckuck, Wendehals, Mauersegler, Rauchschwalbe, Mehlschwalbe
Ringeltaube, Türkentaube, Hohltaube
Eulen: Waldkauz, Steinkauz, Schleiereule, Uhu
Greifvögel: Mäusebussard, Turmfalke, Habicht, Sperber

Auch Frösche (Laubfrosch, Teichfrosch, Grasfrosch), Grillen (Feldgrille, Heimchen), Heuschrecken und Zikaden werden in vielen Fällen erkannt. Die höchste Trefferquote erreicht das Modell aber bei Vögeln – die bioakustische Klassifikation ist dort wissenschaftlich am besten abgedeckt.

Tipps für gute Aufnahmen

Auch die beste KI ist nur so gut wie das Eingangssignal. Mit diesen Hinweisen erhöhen Sie die Trefferquote spürbar:

Wind reduzieren: Halten Sie das Mikrofon hinter einen Körperteil oder eine Jacke, um direkten Anströmwind zu blocken. Bei starkem Wind lieber eine Pause abwarten.
Nähe hilft, Stille auch: Je näher am Vogel, desto besser – aber nicht so nah, dass er auffliegt. Ein ruhiger Hintergrund ist wichtiger als perfekte Distanz.
Andere Geräusche meiden: Gespräche, Straßenverkehr, Hundegebell oder Rasenmäher stören das Modell. In Parks lieber morgens vor dem üblichen Lärm aufnehmen.
Mehrere Strophen aufnehmen: Eine einzelne Silbe reicht selten. Zwei bis drei Gesangsstrophen oder Rufsequenzen geben dem Modell genug Material.
Smartphone richtig halten: Mikrofon zur Schallquelle ausrichten – bei modernen Handys oft am unteren Gehäuserand. Nicht mit der Hand überdecken.
Originalqualität nutzen: Telefonate während der Aufnahme oder Bluetooth-Headsets ausschalten – das interne Mikrofon des Smartphones liefert das beste Signal.

Vergleich: OpenInsect vs. BirdNET vs. Merlin Bird ID

Es gibt mehrere bekannte Apps zur Vogelstimmen-Erkennung. Hier ein ehrlicher Vergleich:

Feature	OpenInsect	BirdNET (Cornell)	Merlin Bird ID	Naturblick
Audio-Erkennung	Ja, bis 60 s	Ja	Ja, live	Ja
Foto-Erkennung	Ja	Nein	Ja	Ja (Pflanzen Schwerpunkt)
Video-Erkennung	Ja	Nein	Nein	Nein
Andere Tiere (Frösche, Insekten)	Ja	Nein	Nein	Teilweise
Spektrogramm-Visualisierung	Ja, im Beitrag	Ja	Ja	Nein
Community-Feed & Punkte	Ja	Nein	Nein	Eingeschränkt
Sprache	Deutsch (first-class)	Englisch primär	Mehrsprachig	Deutsch
Kosten	Kostenlos	Kostenlos	Kostenlos	Kostenlos

Kurz gesagt: BirdNET und Merlin sind ausgezeichnete reine Vogel-Apps mit jahrelanger Forschungsbasis. OpenInsect spielt seine Stärken aus, wenn Sie nicht nur Vögel bestimmen wollen, sondern Foto, Video und Audio in einer App kombinieren möchten – inklusive Community-Feed, Punkten und deutscher Oberfläche von Anfang an.

Online-Alternative ohne App

Bilder von Vögeln können Sie auch ohne App direkt über unsere Website auf Vogelbestimmung mit Foto online hochladen und in Sekunden bestimmen lassen – ganz ohne Installation.

Für Audio-Aufnahmen von Vogelstimmen brauchen Sie aktuell jedoch die OpenInsect-App: Mikrofon-Zugriff, GPS-Erfassung und die serverseitige Spektrogramm-Erstellung sind eng mit der App verzahnt. Eine reine Browser-Aufnahme über die Website ist in Vorbereitung.

Häufige Fragen

Ist die Vogelstimmen-Erkennung in OpenInsect wirklich kostenlos?

Ja. Die App ist im Apple App Store und bei Google Play kostenlos. Audio-Aufnahmen, Foto- und Video-Bestimmung sowie die KI-Auswertung samt Spektrogramm sind ohne Gebühr nutzbar. Es gibt keine Abo-Pflicht und keine versteckten Kosten für die Erkennung.

Wie genau ist die KI bei Vogelstimmen?

Bei klaren Aufnahmen typischer heimischer Singvögel ohne starken Störlärm erreicht das Modell sehr hohe Trefferquoten. Die App zeigt zusätzlich einen Konfidenz-Score und alternative Kandidaten an, sodass Sie das Ergebnis selbst einschätzen können. Bei Wind, Verkehrslärm oder ähnlich klingenden Arten kann sich die KI irren – mehrere Aufnahmen helfen.

Funktioniert die App auch für Eulen, Frösche oder Insekten?

Ja. Eulenrufe, Froschchorgesang, Grillenzirpen und Zikaden werden von OpenInsect mit erfasst. Die Genauigkeit ist dort etwas niedriger als bei klassischen Singvögeln, weil die wissenschaftliche Datengrundlage für diese Gruppen kleiner ist. Für typische Garten- und Waldrufe der heimischen Fauna sind die Ergebnisse aber meist solide.

Werden meine Aufnahmen weiterverwendet?

Aufnahmen werden für die KI-Auswertung verarbeitet und im Community-Feed angezeigt, wenn Sie den Beitrag öffentlich machen. Sie können Beiträge auch privat speichern. Details zur Datenverwendung finden Sie in der Datenschutzerklärung in der App.

Kann ich Vogelstimmen auch ohne Internet erkennen lassen?

Aktuell benötigt die KI-Auswertung eine Internetverbindung, weil die Analyse serverseitig läuft – das macht sie sehr genau und schont den Akku Ihres Smartphones. Sie können aber Aufnahmen offline machen und später hochladen, sobald Sie wieder Empfang haben.

So funktioniert KI-basierte Vogelstimmen-Erkennung wissenschaftlich

Hinter jedem Treffer der OpenInsect-App steht eine ganze Pipeline aus klassischer Signalverarbeitung und moderner Mustererkennung. Der Weg vom rohen Mikrofonsignal Ihres Smartphones bis zum Artnamen lässt sich in vier Schritte zerlegen: Aufnahme, Zeit-Frequenz-Zerlegung, Merkmals-Extraktion und Klassifikation. Wer einmal verstanden hat, was in jedem Schritt passiert, sieht ein Spektrogramm danach mit anderen Augen.

Schritt 1 – Vom Schalldruck zur Zeitreihe

Das Mikrofon im Smartphone wandelt Luftdruckschwankungen in eine digitale Zahlenfolge um – typischerweise mit 44,1 oder 48 kHz Abtastrate. Für Vogelgesang reicht aber bereits eine deutlich geringere Rate: Der Hauptenergiebereich heimischer Singvögel liegt laut Abeßer et al. (DEGA Akustik Journal 03/2025) zwischen 2 und 8 kHz – einzelne Trillerelemente erreichen Wiederholungsraten bis 48 Hz. Bei einer Abtastrate von 24 kHz deckt das Nyquist-Theorem (f_max = f_s/2) somit den gesamten relevanten Frequenzbereich bis 12 kHz ab. Höhere Sampling-Raten sind technisch möglich, bringen für die reine Artbestimmung aber kaum zusätzliche Information und erzeugen unnötig große Dateien.

Schritt 2 – Spektrogramm via Short-Time Fourier-Transform

Damit die KI nicht nur Lautstärke, sondern auch Tonhöhen-Verläufe „sehen" kann, wird das Audiosignal in ein Spektrogramm umgewandelt. Mathematisch geschieht das über die Short-Time Fourier-Transform (STFT):

X(τ, f) = ∫ x(t) · w(t − τ) · e^−j2πft dt

Dabei ist x(t) das zeitkontinuierliche Audiosignal, w(t − τ) eine Fensterfunktion (typischerweise Hann oder Hamming) zentriert um den Zeitpunkt τ, und X(τ, f) liefert die komplexe Amplitude bei Frequenz f. Das Spektrogramm ist dann |X(τ, f)|².

Frommolt et al. (Vogelwarte 50, 2012) beschreiben die FFT-basierte Spektrogramm-Berechnung als das Standardwerkzeug der bioakustischen Mustererkennung: Die berechneten Spektrogramme sind nichts anderes als Matrizen von Amplitudenwerten in Zeit- und Frequenzdimension. Auf dieser Matrix-Repräsentation arbeiten alle nachfolgenden Algorithmen.

Drei Parameter entscheiden über die Qualität des Spektrogramms:

Fenstergröße (FFT-Length): Typisch 512 bis 2048 Samples. Größere Fenster geben bessere Frequenzauflösung, kleinere bessere Zeitauflösung – ein klassischer Trade-off, den Abeßer et al. (2025) explizit als „gute Balance zwischen Zeit- und Frequenzauflösung" benennen.
Fensterfunktion: Hamming oder Hann reduzieren das spektrale Leakage an den Fensterrändern.
Hop-Size: Der zeitliche Versatz zwischen aufeinanderfolgenden Fenstern, üblicherweise 25–50 % der Fenstergröße. Kleinere Hop-Sizes liefern flüssigere Spektrogramme, kosten aber Rechenzeit.

Schritt 3 – Mel-Skala und MFCCs

Lineare Frequenzachsen sind für das menschliche – und auch für das aviäre – Gehör unnatürlich. Beide Hörsysteme lösen tiefe Frequenzen feiner auf als hohe. Die Mel-Skala bildet diese Wahrnehmung mathematisch ab:

m = 2595 · log₁₀(1 + f/700)

Daraus werden Mel-Frequency Cepstral Coefficients (MFCCs) berechnet – ursprünglich aus der Spracherkennung übernommen, heute Standard auch in der Bioakustik. Krüger (HfM Weimar, WiSe 22/23) verwendet in ihrer Untersuchung zur automatischen Vogelgesang-Erkennung 13 MFCCs als Feature-Vektor und stellt fest, dass eine Erhöhung auf 20 keinen signifikanten Effekt mehr auf die Trefferquote hat – ein nützlicher Hinweis für die Dimensionierung schlanker Modelle.

Abeßer et al. (DEGA 2025) heben hervor, dass MFCCs „spektrale Eigenschaften eines Audiosignals in einem menschlich hörbaren Frequenzbereich erfassen" und daher bei tonal geprägten Tierlauten besonders effektiv sind, während einfache Zeitbereichsmerkmale wie kurzzeitige Energie oder Nulldurchgangsrate in komplexen Klangszenen unzureichend bleiben.

Schritt 4 – Klassifikation: vom CNN zum Foundation-Modell

Auf der Mustererkennungs-Ebene haben sich in den letzten zehn Jahren drei Generationen abgelöst:

Klassische Algorithmen wie die Spektrogramm-Korrelation (Frommolt et al. 2012, Formel siehe Bibliografie) vergleichen unbekannte Aufnahmen mit Referenz-Templates. Identische Spektrogramme ergeben einen Korrelationskoeffizienten von 1; je höher der Wert, desto ähnlicher die Rufe. Daneben kamen Hidden-Markov-Modelle (HMMs) und Random Forests zum Einsatz.
Convolutional Neural Networks (CNNs), allen voran BirdNET der Cornell University, behandeln das Spektrogramm wie ein Bild und lernen hierarchisch immer komplexere Zeit-Frequenz-Muster: erst horizontale (harmonische) und vertikale (transiente) Strukturen, dann komplette Rufmotive. Abeßer et al. (2025) beschreiben diese hierarchische Merkmalsbildung als heute dominanten Ansatz.
Transformer und Foundation-Modelle nutzen Self-Attention und können längere zeitliche Abhängigkeiten erfassen. Aktuelle Audio-Sprach-Modelle wie NatureLM-Audio sind speziell für die Analyse von Tierlauten entwickelt und können laut DEGA-Übersicht selbst seltene oder gefährdete Arten klassifizieren.

Stand der Forschung – was Genauigkeit und Grenzen angeht

Drei Arbeiten zeichnen den aktuellen Erkenntnisstand der automatischen Vogelstimmen-Erkennung gut nach. Wir paraphrasieren die zentralen Aussagen mit Quellenangabe:

Frommolt et al., Vogelwarte 50 (2012) – die Methodengrundlage

Der Übersichtsartikel „Automatisierte Methoden der Erfassung von Rufen und Gesängen" ist bis heute eine der meistzitierten deutschsprachigen Referenzen zum Thema. Drei Erkenntnisse sind für die Praxis besonders relevant:

Mit empfindlichen Mikrofonen erreicht eine Tonaufnahme die gleiche Reichweite wie das menschliche Gehör – eine vergleichende Studie von Hobson et al. (2002) im borealen Mischwald fand 83–97 % Übereinstimmung zwischen Feld- und Aufnahmebestimmung.
Spektrogramm-Korrelation funktioniert sehr gut bei klar strukturierten Rufen: Für den Rohrschwirl (Locustella luscinioides) erreichte das Verfahren 92 % Detektionsrate bei nur 1,2 % Fehlinterpretationen (Bardeli et al. 2010, in der Vogelwarte-Übersicht zitiert).
Bei stark überlappenden Rufen mehrerer Arten brechen die Trefferquoten dagegen drastisch ein – Buxton & Jones (2012) berichten von nur noch 10 % erkannten Rufen in solchen Polyphonie-Situationen. Das ist die wissenschaftliche Begründung dafür, warum eine ruhige Aufnahmeumgebung so wichtig ist.

Krüger, HfM Weimar (WiSe 22/23) – das hands-on-Beispiel

Sophie Krüger dokumentiert in ihrer Projektarbeit „Automatische Erkennung von Vogelgesang" den Aufbau eines kompletten Vogelstimmen-Detektors auf Basis des DCASE-„Bird Audio Detection Challenge"-Datensatzes. Drei Befunde sind für unsere App-Entwicklung lehrreich:

Mit 13 MFCCs als Features und einem Random-Forest-Klassifikator erreicht ein einfaches Modell eine Trefferquote von etwa 75 % bei 200 Trainingsdateien – deutlich über der 50-%-Zufallsbaseline einer binären Klassifikation, aber für den Praxiseinsatz noch zu niedrig.
Eine Vergrößerung des Datensatzes auf 500 bzw. 1000 Dateien führte in dieser Studie nicht automatisch zu besserer Erkennung – ein Hinweis darauf, dass die Qualität und Diversität der Trainingsdaten wichtiger ist als reine Menge.
Die Autorin schließt explizit mit der Empfehlung, dass die zeitaufgelöste Information des Mel-Spektrogramms (statt zeitlich gemittelter MFCCs) die Trefferquote weiter verbessern sollte – exakt der Weg, den moderne CNNs und Foundation-Modelle gegangen sind.

Abeßer, Lukashevich, Ziegler & Bös, DEGA Akustik Journal 03/2025

Der Übersichtsartikel „Fortschritte in der automatischen Erkennung von Vogelstimmen" des Fraunhofer IDMT bringt den Stand der Technik 2025 auf den Punkt:

Vogelgesang liegt akustisch im Frequenzbereich 2–8 kHz. Trillerelemente einzelner Arten erreichen Wiederholungsraten bis 48 Hz – traditionelle Signalverarbeitungsverfahren stoßen hier an ihre Grenzen.
Per-Channel Energy Normalization (PCEN) hat sich als wirksame Spektrogramm-Nachbearbeitung etabliert: Sie filtert Windrauschen unter 500 Hz aus, gleicht die Energieverteilung über den Frequenzbereich aus und betont die für die Erkennung relevanten Frequenzkonturen.
Laut IUCN-Roter-Liste 2025 sind 12 % aller weltweiten Vogelarten gefährdet oder vom Aussterben bedroht. Automatisiertes bioakustisches Monitoring (Passive Acoustic Monitoring, PAM) ist daher kein nice-to-have mehr, sondern ein zentrales Werkzeug der Naturschutzforschung.
Aktuelle Forschungs-Datensätze wie BirdSet (über 6800 Stunden Audio, fast 10000 Klassen) und Xeno-Canto (450000+ Aufnahmen, 10000+ Vogelarten) liefern die Trainingsbasis für moderne Modelle.

Hübner, Universität Potsdam (2006/2008) – die methodische Tiefenbohrung

Sebastian Hübners Dissertation „Wissensbasierte Modellierung von Audio-Signal-Klassifikatoren – Zur Bioakustik von Tursiops truncatus" wurde am Beispiel des Großen Tümmlers entwickelt, beschreibt aber ein vollständiges, übertragbares Framework für die maschinelle Annotation bioakustischer Aufnahmen. Drei Befunde sind direkt für die Vogelstimmen-Erkennung wertvoll:

Robustheit gegenüber Hintergrundrauschen: In einer kontrollierten Studie an synthetischen Pfiff-Lauten brachen Genauigkeit und Präzision spektrographischer Klassifikatoren erst bei einem Signal-Rausch-Abstand unterhalb von −30 dB deutlich ein (Kapitel 5.5). Bis zu diesem Wert blieb die Trefferquote stabil hoch – ein Hinweis darauf, dass Verfahren auf Spektrogramm-Basis keine Studio-Aufnahmen brauchen, um zuverlässig zu klassifizieren.
Polyphonie-Toleranz quantifiziert: Bei durchschnittlich drei zeitgleichen Pfiff-Lauten in einer Aufnahme erreichte die getestete Klassifikator-Schar laut Hübner immer noch 79 % Genauigkeit bei 100 % Präzision (Kapitel 5.6). Erst ab vier oder mehr Überlagerungen brach die Performanz signifikant ein. Für unsere Anwendung heißt das: zwei singende Vögel sind kein Problem, ein Dawn-Chorus mit fünf gleichzeitigen Sängern dagegen schon.
Visualisierung als wissenschaftliches Werkzeug: Hübner zeigt anhand kontrastoptimierter Farbpaletten, dass eine sorgfältig gewählte Farbcodierung den sichtbaren Wertebereich eines Spektrogramms gegenüber reiner Graustufendarstellung um etwa Faktor drei erweitert (Kapitel 3.2). Feine Obertöne, die in Graustufen unsichtbar bleiben, werden durch einen Kalt-Warm-Kontrast im mittleren Wertebereich abgrenzbar – exakt das Prinzip hinter den heute üblichen wahrnehmungsuniformen Paletten wie viridis, magma oder inferno.

Methodisch unterstreicht die Arbeit zwei für jede Klassifikations-Pipeline geltende Prinzipien: Erstens die Trennung von Signaturen akustischer Phänomene (Wissen) und Mustererkennungs-Algorithmen (Technik) – ein Wissensbestand, der als kompakte Signatur formalisiert ist, überlebt Wechsel der zugrundeliegenden Modelle (klassischer Korrelationsdetektor → CNN → Foundation-Modell) ohne Informationsverlust. Zweitens die Beobachtung, dass logarithmierte Spektrogramme eine deutlich bessere Trennschärfe für leise Strukturen liefern als lineare Amplitudenwerte – ein Schritt, den auch moderne Pipelines konsequent vor der Mel-Skalierung ausführen.

Was bleibt schwer

Trotz aller Fortschritte bleiben drei Probleme bestehen, die auch OpenInsect nicht magisch löst:

Polyphonie: Wenn mehrere Vögel gleichzeitig singen, sinkt die Erkennungsrate teils auf 10 % (Frommolt et al. 2012). Aktuelle Forschung zur KI-basierten Quellentrennung (BioCPPNet u. a.) verspricht Verbesserung.
Schwacher Signal-Rausch-Abstand: Wind, Verkehr, Wasser und andere Tiere überdecken den Vogelruf. Domänenanpassung (domain adaptation) und PCEN gleichen das teilweise aus, aber nur teilweise.
Dialektvariation: Vögel zeigen regionale Gesangsdialekte. Walcott et al. (2006) zeigten am Eistaucher (Gavia immer), dass sich Rufstrukturen sogar bei Territoriumswechsel verändern – ein Modell, das nur an „Standard-Aufnahmen" trainiert wurde, scheitert daran.

Wie OpenInsect die wissenschaftlichen Best Practices umsetzt

OpenInsect kombiniert mehrere der oben beschriebenen Methoden zu einer pragmatischen Pipeline, die sowohl die akustische Klassifikation als auch die Visualisierung in einem Schritt produziert:

Modell-Layer: Foundation statt klassisches CNN

Statt eines spezialisierten BirdNET-CNNs setzen wir auf ein multimodales Foundation-Modell der neuesten Generation mit nativer Audio-Eingabe, eingebettet in unsere eigene KI-Pipeline aus Vorverarbeitung, Klassifikation und Kontextanalyse. Diese Architektur hat zwei Vorteile gegenüber klassischen Tier-CNNs:

Sie kann Kontext mit-verarbeiten – GPS-Position, Tageszeit, Temperatur, Luftfeuchtigkeit und sogar User-Notizen fließen als Text in dieselbe Inferenz ein. Damit lassen sich regional unwahrscheinliche Arten automatisch herabgewichten.
Sie arbeitet artenübergreifend: Vögel, Eulen, Frösche, Grillen und Zikaden werden vom selben Modell erkannt – ohne dass für jede Tiergruppe ein separater Klassifikator nötig wäre. Das entspricht dem von Abeßer et al. (DEGA 2025) genannten Trend zu „artenübergreifender Lauterkennung".

Server-seitige Audiodatenverarbeitung

Bevor das Modell überhaupt anfängt zu klassifizieren, durchläuft jede Aufnahme eine Vorverarbeitung, die direkt aus den oben zitierten Papers abgeleitet ist:

Loudness-Normalisierung auf −18 LUFS nach EBU R128, damit Aufnahmen unterschiedlicher Distanzen vergleichbar werden.
Highpass-Filter bei 80 Hz gegen Wind- und Verkehrsrumpeln – exakt der Frequenzbereich, in dem laut DEGA-Artikel das stärkste Hintergrundrauschen auftritt.
Silence-Removal mit Threshold von −40 dB, damit das Modell sich auf die tatsächlichen Rufpassagen konzentriert.
Spektrogramm-Erstellung mit FFmpeg `showspectrumpic`, viridis-Farbpalette, Frequenzband 0–12 kHz, lineare Skala. Das Resultat ist die Grafik, die Sie nach jedem Treffer in Ihrem Beitrag sehen.

Kontext-Anreicherung

Beim Hochladen sendet die App nicht nur das Audio, sondern eine kompakte Kontext-Tabelle: GPS-Koordinaten (für die regionale Plausibilität), Tageszeit (Eulen klingen morgens anders als nachts), Wetterdaten (Wind erklärt Hintergrundrauschen) und – falls vorhanden – Beobachtungs-Notizen. Diese Daten reduzieren die effektive Klassifikations-Klassenmenge dramatisch und erhöhen damit die Top-1-Genauigkeit erheblich, ohne dass das Modell selbst nachtrainiert werden muss.

Visualisierungs-Best-Practices: Warum unsere Spektrogramme so aussehen, wie sie aussehen

Ein Spektrogramm ist nicht nur ein Bild für die Optik – es ist ein wissenschaftliches Diagramm, dessen Achsen, Skalen und Farbgebung Information transportieren. Vier Designentscheidungen sind hinter den OpenInsect-Spektrogrammen bewusst getroffen:

Lineare Frequenzachse statt logarithmisch

Für klassische Singvögel mit Hauptband 2–8 kHz ist eine lineare Frequenzachse gut lesbar – das Vokalband nimmt einen großen, gleichmäßig dargestellten Teil der Grafik ein. Eine logarithmische Skala würde tiefe Frequenzen (unter 500 Hz) übermäßig groß darstellen, obwohl dort meist nur Wind- oder Verkehrsrauschen liegt. Bei tieffrequenten Eulenrufen oder Großvögeln kann eine Mel-Skala hingegen tatsächlich besser sein – ein möglicher künftiger View-Mode.

Frequenzbereich 0–12 kHz

Die obere Grenze ergibt sich aus dem Nyquist-Theorem bei 24 kHz Sampling. Höher liegende Frequenzen sind für die Vogelartbestimmung nicht relevant – Frommolt et al. (2012) und Abeßer et al. (2025) bestätigen beide, dass das Hauptband knapp unter 10 kHz endet.

Viridis statt Jet

Die viridis-Farbpalette ist wahrnehmungsuniform – gleiche Farb-Abstände entsprechen gleichen Energie-Abständen. Die alte „Jet"-Palette (Blau → Cyan → Grün → Gelb → Rot) erzeugt optische Sprünge, die nicht im Signal stecken, und ist zudem für Rot-Grün-Blinde schlecht lesbar. Wissenschaftliche Bioakustik-Software ist in den letzten Jahren weitgehend auf viridis (oder magma/inferno) umgestiegen.

Zeit-Frequenz-Trade-off

Wir nutzen die FFmpeg-Defaults (Fenstergröße ca. 2048 Samples, Hop-Size 25 %) – das ist ein bewusster Kompromiss zwischen Frequenz- und Zeitauflösung, der sowohl rasche Triller als auch lange Pfeiftöne erkennbar macht. Für hochaufgelöste Forschungsanalysen (z. B. von Trillerraten bis 48 Hz, wie in Podos 1997 und DEGA 2025 beschrieben) wäre eine kleinere Fenstergröße sinnvoll – das ist ein Punkt, an dem wir noch optimieren können.

Quellen und weiterführende Literatur

Wer tiefer in die wissenschaftliche Grundlage der automatischen Vogelstimmen-Erkennung einsteigen möchte, dem empfehlen wir die folgenden frei verfügbaren Primärquellen:

Frommolt, K.-H., Hüppop, O., Bardeli, R., Hill, R., Koch, M., Tauchert, K.-H. & Specht, R. (2012): Automatisierte Methoden der Erfassung von Rufen und Gesängen in der avifaunistischen Feldforschung. Vogelwarte 50, S. 65–78. PDF (Zobodat)
Krüger, S. (WiSe 22/23): Automatische Erkennung von Vogelgesang. Projektarbeit im Rahmen „KI-gestützte Soundanalyse", Hochschule für Musik Franz Liszt Weimar (Prof. Dr. Pfleiderer / Prof. Abeßer). PDF (HfM Weimar)
Abeßer, J., Lukashevich, H., Ziegler, S. & Bös, J. (2025): Fortschritte in der automatischen Erkennung von Vogelstimmen. Akustik Journal 03/2025 (Deutsche Gesellschaft für Akustik), S. 7–16. PDF (DEGA Akustik)
Hübner, S. (2006/2008): Wissensbasierte Modellierung von Audio-Signal-Klassifikatoren – Zur Bioakustik von Tursiops truncatus. Dissertation, Humanwissenschaftliche Fakultät der Universität Potsdam, 2., überarbeitete Auflage, Universitätsverlag Potsdam. PDF (Universität Potsdam)

Empfehlung für Wissenschaftler und Citizen Scientists: Anonymisierte OpenInsect-Aufnahmen mit Spektrogramm und Kontextdaten (GPS, Wetter, Konfidenz-Score) lassen sich gut für die Validierung eigener Modelle oder für Biodiversitätsanalysen nutzen. Wer Interesse an einem strukturierten Datenexport hat, kann uns über die App kontaktieren – wir sehen uns als Citizen-Science-Plattform analog zu Xeno-Canto und Macaulay Library, mit dem zusätzlichen Mehrwert, dass jede Aufnahme bereits eine Spektrogramm-Visualisierung mitbringt.

Jetzt OpenInsect kostenlos laden

Probieren Sie die Vogelstimmen-Erkennung selbst aus – OpenInsect ist für iOS und Android verfügbar:

Mit jedem Upload füttern Sie das Modell mit echten Beobachtungsdaten und werden Teil einer wachsenden Community von Naturfreunden, Hobby-Ornithologen und Citizen Scientists.

Eingeordnet unter: App, Bioakustik, KI, Spektrogramm, Vogelgesang, Vogelstimmen, Wissenschaft