Zahlreiche Tierarten werden eher gehört als beobachtet. So basiert die Erfassung von Brutvögeln im Wesentlichen auf der Kartierung von Reviergesängen oder anderen revieranzeigenden Signalen wie dem Trommeln der Spechte. Es liegt also nahe, diese Geräusche aufzuzeichnen und für eine automatische Erfassung zu nutzen. Das Spektrum der Tierarten, die auf diesem Wege erfasst werden können, umfasst neben Vögeln auch Säugetiere, Amphibien, aber auch Insekten wie Heuschrecken und Singzikaden. Eine automatische Auswertung der Aufzeichnungen soll es ermöglichen, das Artenspektrum zu bestimmen und auch Hinweise über die Anzahl rufender Tiere zu bekommen.
Erfassung von Geräuschen im hörbaren Bereich
Der Vorteil einer akustischen Erfassung ist, dass zu jeder Tages- und Jahreszeit aufgezeichnet werden kann, ohne die Notwendigkeit der Anwesenheit eines Beobachters und ohne Störungen für die Tiere. Wir nutzen Vierkanaltechnik, um auch die räumliche Dimension des Klangbildes zu erfassen. Herzstück der Aufzeichnungseinheit ist ein Raspberry Pi Einplatinenrechner, an dem ein Audiointerface angeschlossen ist (Abbildung 1). Vier Richtmikrofone, die jeweils 90 Grad versetzt angeordnet sind zeichnen die Klangereignisse auf. Die aufgezeichneten Audiodaten werden zur Basisstation übertragen und sollen von dort aus zur weiteren Analyse an eine zentrale Recheneinheit weitergeleitet werden.
Erfassung von Lauten im Ultraschallbereich
Zur Erfassung von Fledermäusen können Ortungsrufe und im Flug geäußerte Sozialrufe genutzt werden (Abbildung 2). Die Rufe liegen in der Regel im vom menschlichen Gehör nicht wahrnehmbaren Ultraschallbereich mit Frequenzen oberhalb 20 kHz. Für die AMMOD-Station wird ein USB-Ultraschallmikrofon genutzt, das direkt an den Einplatinenrechner angeschlossen werden kann.
Bestimmung der Artenzusammensetzung unter Nutzung von Algorithmen der akustischen Mustererkennung
Die in diesem Projekt erzeugten Tonaufnahmen werden von einem Bioakustiker annotiert, d.h. die Lautäußerungen der Tiere werden in den Spektrogrammen in Zeit und Frequenz markiert und bestimmt (Abbildung 3).

Der in Handarbeit gewonnene Datensatz ermöglicht es mit Hilfe moderner Deep Learning Algorithmen ein künstliches neuronales Netz zu trainieren. Dieser digitale Detektor soll künftige Tonaufnahmen automatisiert auswerten (Abbildung 4).

Zurzeit können neuronale Netze bereits sehr gut einzeln auftretende Tonsignale der entsprechenden Tierart zuweisen. Sie scheitern aber meist an komplexen Geräuschkulissen, wie sie in der Natur häufig vorkommen. Unter solchen Bedingungen wird die digitale Arterkennung von überlappenden Signalen verschiedener Tierlaute und anderer Geräuschquellen, wie z.B. Wind und Verkehrslärm, zu einer echten Herausforderung.
Daher ist eines unserer Projektziele, die Zuverlässigkeit der digitalen Arterkennung in natürlichen Geräuschkulissen deutlich zu erhöhen. Dafür werden wir gezielt Tonaufnahmen mit einer Vielzahl gleichzeitig singender und rufender Arten manuell annotieren. Mit diesem neuen Trainingsmaterial kann die Erkennungsleistung des neuronalen Netzes verbessert werden. Durch die sich anschließende Validierung der automatisierten Erkennungsergebnisse mit Hilfe eines weiteren manuell annotierten Datensatzes können noch existierende Schwachstellen erkannt und zielgerichtet behoben werden.
Ermittlung der Anzahl rufender Tiere
Neben der Ermittlung vorhandener Arten ist eine möglichst genaue Schätzung der Anzahl vorkommender Individuen pro Tierart ein wichtiger Bestandteil des hier angestrebten Monitorings. Unter der Annahme, dass sich verschiedene Individuen meist an unterschiedlichen räumlichen Positionen befinden, kann eine ortsbasierte Differenzierung erfolgen. Dazu wird in diesem Projekt ein Ansatz verfolgt, der zunächst ein richtungsselektives Spektrogramm erzeugt. Räumlich zusammenhängende Komponenten dieses sogenannten Richtungs-Spektrogramms werden in einem ersten Schritt gruppiert, um so einzelne aus einer Richtung auf das Mikrofon-Feld (vgl. Abbildung 1) einfallende Geräusche zu extrahieren. In einem zweiten Schritt werden die so ermittelten räumlichen Gruppen mit der aus dem klassischen Spektrogramm bekannten Information über Zeit-Frequenz-Nähe der einzelnen Gruppen-Komponenten kombiniert. Als Ergebnis werden Rufe getrennt, die aus unterschiedlichen Richtungen in das Mikrofonfeld einfallen. Rufe eines Individuums werden zusammengefasst, wenn sie aus derselben Richtung kommen. Durch geeignete Kombination dieses Ansatzes mit Mustererkennungsmethoden kann jeder räumlichen Gruppe von Lauten eine Tierart zugeordnet und die Anzahl der gleichzeitig rufenden Tiere geschätzt werden.
