Sicherheitsanalyse: Wie anfällig sind Audio-Deepfake-Erkennungsverfahren für gezielte Angriffe?, Max Gerdes

Max Gerdes

Kurzfassung

In jüngster Zeit haben sich Deepfakes zu einer ernstzunehmenden Bedrohung entwickelt. Insbesondere Audio-Deepfakes werden bereits gezielt zur Verbreitung von Desinformationen und zur Durchführung betrügerischer Handlungen eingesetzt. Die automatische Erkennung durch entsprechende Algorithmen ist jedoch herausfordernd, insbesondere wenn Audiodaten durch spezifische Transformationen manipuliert wurden. In dieser Arbeit werden daher die Auswirkungen gängiger Manipulationstechniken wie Kompression, Rauschreduktion und Hintergrundgeräusche auf die Leistungsfähigkeit aktueller Audio-Deepfake-Erkennungsverfahren untersucht. Zudem wird erprobt, ob sich die Verfahren durch einen angepassten Trainingsdatensatz verbessern lassen. Hierzu wurden die Audiodaten des ASVspoof2019-Datensatzes systematisch transformiert und mit diversen aktuellen Erkennungsverfahren analysiert. Die Ergebnisse zeigen, dass die Modelle gegenüber den getesteten Transformationen anfällig sind. Jedoch konnte durch die Berücksichtigung der transformierten Audiodaten während des Trainingsprozesses eine verbesserte Generalisierungsfähigkeit der Modelle erreicht werden.

Schlagwörter: Audio, Deepfakes, Deepfake Erkennung, Deep Learning, Generalisierung, Machine Learning

Abstract

Deepfakes have recently become a serious threat, particularly in the form of Audio deepfakes, as they are already being used to spread disinformation and carry out fraudulent activities. However, detecting them automatically using appropriate algorithms is challenging, particularly when the audio data has been altered using specific transformations. This study examines the impact of manipulations such as compression, noise reduction, and background noise on the effectiveness of current audio deepfake detection methods, and explores whether these methods could be enhanced through an adapted training dataset. To this end, the audio data from the ASVspoof2019 dataset was systematically transformed and analyzed using various current recognition methods. The results demonstrate that the models are highly susceptible to the tested transformations. However, considering the transformed Audio data during training improved the models' ability to generalize.

Keywords: Audio, Deepfakes, Deepfake Detection, Deep Learning, Generalization, Machine Learning