Tasks

Dieses Dokument ist nach Feature-Gruppen gegliedert. Zu jedem Feature finden sich unter Überschriften je eine Liste mit Aufgaben für Server und Client.

Unter ./other-repos/ovos-stt-plugin-vosk findest du ein Beispielprojekt das folgende Features enthält die dir helfen könnten bei der Implementierung:

Streaming-ASR via Vosk API: niedrige Latenz (kleiner 100 ms), CTC/WFST, CPU-optimiert.
Code-Switching: Deutsche Modelle mit englischen Termini.
Adapter-Feintuning: Nutzt Kaldi-Adapter, lässt sich in Personalisierungs-Pipeline einbinden.

Feature: Basis-Streaming-Inferenz

Um eine funktionierende Echtzeit-Transkription zu ermöglichen, implementiere im Server die Streaming-Pipeline und im Client die Audio-Erfassung und Anzeige.

Server

Python-Projekt initialisieren mit venv und FastAPI
Abhängigkeiten installieren (PyTorch, Transformers, PEFT, uvicorn, websockets)
WebSocket-Endpunkt /ws/stream einrichten
Eingehende 20 ms PCM-Chunks empfangen und in Tensoren umwandeln
Modell facebook/wav2vec2-large-xlsr-53-german auf CPU/Neural Engine laden
Inferenz-Pipeline (Forward-Pass → Logits → CTC-Decoding) implementieren
Transkripte als Chunks über WebSocket zurücksenden

Client

Unter ./other-repos/leon findest du ein Beispielprojekt das dir helfen kann bei der Audio verarbeitung und anzeige des transkripts. Wichtig ist aber das ich das in einem eingabe feld haben möchte damit ich es später editieren kann

React-Projekt initialisieren mit Vite und TypeScript
Mikrofonzugriff via Web-Audio API anfordern
20 ms Audio-Chunks erfassen und als PCM-Buffer serialisieren
WebSocket-Verbindung zu /ws/stream aufbauen
Gesammelte Audio-Chunks in Echtzeit senden
Eingehende Transkriptions-Chunks anzeigen (Streaming-Update)
Fehler-Handling bei Verbindungsabbrüchen implementieren

Feature: Verbesserte ASR-Qualität durch gezielte Backend-Maßnahmen

Alle Details zur Verbesserung der Ist-Situation nach dem letzten Feature: https://www.perplexity.ai/search/bitte-recherchiere-und-fasse-z-Yeh3BqyJQhagazWxD1bKoQ

Die ASR-Qualität im Live-Streaming-Backend wird durch gezielte Maßnahmen deutlich verbessert

1. Wortverschmelzungen und falsche Trennungen

2. Kritische Verbesserungen

https://www.perplexity.ai/search/bei-meinem-aktuellen-projekt-h-p3YQ8JYSQ0eC2ztoRb1s7Q#0

Automatisierte Grid-Search für KenLM-Parameter (Alpha/Beta) tune_decoder
Neues Model
- Ergebnis für "facebook/wav2vec2-large-xlsr-53-german"
  - Das waren auf jeden Fall 4000 Beispielen und 170 Kombinationen
  - Beste Alpha: 0.20
  - Beste Beta: -1.00
  - Beste avg. WER: 0.2044
- wav2vec2-S ist nicht verfügbar?
  - Sagt er hier https://www.perplexity.ai/search/bei-meinem-aktuellen-projekt-h-p3YQ8JYSQ0eC2ztoRb1s7Q#8
- habe gemini-cli gefragt und das hat ein anderes verfügbares gefunden
  - siehe docs/2025-07-18-better-audio-modell.md
  - eine Kombination dauert: 3045s. Bei 170 Kombinationen kann man in 13h 356 Beispiele berechnen
  - decoder tune run um WER zu vergleichen
- wav2vec2-S ist nicht verfügbar ist falsch, ich hab das gefunden:
  - biaofuxmu/wav2vec-S: Code for ACL 2024 findings paper "wav2vec-S: Adapting Pre-trained Speech Models for Streaming"
  - biaofu-xmu/wav2vec-S-Large-ft-960h · Hugging Face
  - decoder tune run um WER zu vergleichen

4. Fachbegriffe, Namen, Fremdwörter

siehe ./docs/2025-08-03-next-steps.md
personalisiertes KenLM:
- Durch eigene Notizen KenLM personalisieren
- siehe ./docs/2025-07-31-kenlm-personalisierung.md
Hotword-Boosting:
- Boost-Words/Fachbegriffe mit erhöhtem Score via pyctcdecode

4. Kontinuierliche Personalisierung

Adapter-Feintuning per LoRA + EWC:
- Nutzer-Korrekturen werden für LoRA-Feintuning (r=16, α=32, EWC) genutzt und als Adapter deployed
- Automatisierter Trainings-Endpoint nach jeder Session

3. Genauere Wortgrenzen und Alignment

Forced Alignment auf CTC-Logits:
- Dynamische Programmierung über CTC-Logit-Lattice für exakte Wort-Zeitstempel (z. B. mit ctc-forced-aligner)

5. LLM-gestütztes Rescoring

Zweite Pass-Rescoring mit Transformer-LM:
- Nach erster CTC-Hypothese: N-Best-Liste, Bewertung durch LLM (z. B. GPT-4) mit Cross-Attention für komplexe Begriffe

Feature: Personalisierungs-Loop

Um kontinuierliches Lernen zu ermöglichen, setze Server-Endpunkte für Corrections und Training und Client-UI für Korrekturen um.

Erweiterte Dokumentation zu diesem Task ist in docs/ecw.md

Server

Client

UI-Komponente zur Bearbeitung transkribierter Zeilen hinzufügen
- für jede Aufnahme wird der transkribierte Text in einem einfachen input feld dargestellt das bearbeitet werden kann, sobald die Aufnahme vom Benutzer beendet wird
- einen "upload" Button um die daten an /corrections zu übertragen
- nach einem upload kann dieser nicht nochmal getriggert werden, außer es ist ein Fehler aufgetreten beim upload. Auch der Text kann nicht mehr editiert werden
- loading spinner für Upload bis er fertig ist mit Fehlerbehandlung
Automatisches Neuladen des neuen Modells nach Training

Feature: Code-Switching & Vokabular-Biasing

Um Fachbegriffe korrekt zu behandeln, implementiere Biasing im Server-Decoder und entsprechende Einstellungen im Client.

Unter ./other-repos/ASR-Adaptation findest du ein Beispielprojekt das dir hier helfen kann

Server

Mechanismus zur Prompt-Injection für Vokabular-Biasing umsetzen durch statisches vocab_bias.json die vom Client aus geändert werden kann
Decoder anpassen, um Bias-Wahrscheinlichkeiten bei der CTC-Dekodierung zu priorisieren
Optional: Rescoring-Endpoint /rescore zur LLM-gestützten Priorisierung (z. B. GPT-API)

Client

Settings-Tab
- Eingabefeld zum Hinzufügen eigener Fachbegriffe zu vocab_bias.json
- Button um Neustart des Servers der die neuen Begriffe einbetten muss, loading spinner bis Server fertig ist
Anzeige der aktiven Bias-Begriffe und Möglichkeit zum Entfernen
Option zum temporären Deaktivieren des Biasing

Feature: Erweiterungen & Optimierungen

Um Systemstabilität und -performance zu steigern, integriere Augmentation, CI/CD, Monitoring und UI-Optimierungen.

Server

Synthetic Data Augmentation via VALL-E X integrieren (API und Lizenz prüfen)
Alternative Streaming-Server evaluieren (VOSK, ESPnet-Conformer, Kaldi-Serve)
CI/CD-Pipeline für Builds, Tests und Deployments einrichten (Docker, GitHub Actions)

Feature: Improvements

Audioaufnahme im Client von ScriptProcessorNode auf AudioWorkletNode umstellen (Web Audio API Best Practice)
KenLM auf ARPA-Format umstellen:
- Lade und verwende das KenLM-Modell direkt im ARPA-Textformat statt als .klm-Binary.
- Vorteil: pyctcdecode kann Unigramme korrekt extrahieren, keine Warnungen mehr, bessere Decoding-Qualität.
- Nachteil: ARPA-Datei ist größer, Laden minimal langsamer (nur beim Start relevant).
- Umbau ist einfach: build_binary-Schritt weglassen, stattdessen .arpa-Datei verschieben und als Modellpfad verwenden.
- Umsetzung erst, wenn alle anderen Features stabil laufen.

Interpunktion und Großschreibung verbesssern

Wird aktuell von LLM über Olama gefixed.

Online-Punctuation-Module:
- Leichtgewichtiges ELECTRA-basiertes Modell (z. B. angepasstes dslim/bert-base-NER) für inkrementelle Satzzeichen nach CTC
Truecasing-Adapter:
- Truecasing-Stufe mit POS-Tagging (spaCy-Deutsch) für Großschreibung von Satzanfängen und Substantiven

Discovered During Work

Die KenLM-Trainingspipeline läuft jetzt vollständig in Python, nutzt sys.executable und dynamische Pfade für lmplz/build_binary (venv-sicher).
.gitignore für Sprachmodelle und Binärdateien angepasst
Fehler- und Fallback-Handling für KenLM-Integration implementiert
Real-Time Encoder State Revision:
- Speicherung und Überarbeitung früher Hypothesen mit neuen Frames zur Korrektur von Zusammenziehungen

Regeln für die Coding-KI

Jede Aufgabe wird als erledigt markiert, sobald alle zugehörigen Tests und Code-Reviews bestanden sind.
Entscheidungen zwischen vorgestellten Optionen treffen oder bei Bedarf explizit nachfragen.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Tasks

Feature: Basis-Streaming-Inferenz

Server

Client

Feature: Verbesserte ASR-Qualität durch gezielte Backend-Maßnahmen

1. Wortverschmelzungen und falsche Trennungen

2. Kritische Verbesserungen

4. Fachbegriffe, Namen, Fremdwörter

4. Kontinuierliche Personalisierung

3. Genauere Wortgrenzen und Alignment

5. LLM-gestütztes Rescoring

Feature: Personalisierungs-Loop

Server

Client

Feature: Code-Switching & Vokabular-Biasing

Server

Client

Feature: Erweiterungen & Optimierungen

Server

Feature: Improvements

Interpunktion und Großschreibung verbesssern

Discovered During Work

Regeln für die Coding-KI

FilesExpand file tree

tasks.md

Latest commit

History

tasks.md

File metadata and controls

Tasks

Feature: Basis-Streaming-Inferenz

Server

Client

Feature: Verbesserte ASR-Qualität durch gezielte Backend-Maßnahmen

1. Wortverschmelzungen und falsche Trennungen

2. Kritische Verbesserungen

4. Fachbegriffe, Namen, Fremdwörter

4. Kontinuierliche Personalisierung

3. Genauere Wortgrenzen und Alignment

5. LLM-gestütztes Rescoring

Feature: Personalisierungs-Loop

Server

Client

Feature: Code-Switching & Vokabular-Biasing

Server

Client

Feature: Erweiterungen & Optimierungen

Server

Feature: Improvements

Interpunktion und Großschreibung verbesssern

Discovered During Work

Regeln für die Coding-KI