Zurück zum Blog

So bauen Sie einen YouTube MCP-Server für Cursor und Windsurf AI Coding Assistants

2025-04-255 Minuten Lesezeit

Während der Migration meiner Learn English Sounds-Website von einem CMS zu Next.js stieß ich auf ein frustrierendes Hindernis. Ich musste YouTube-Videos finden, die jeden englischen Phonem demonstrierten, aber meine KI-Codierungsassistenten (Cursor und Windsurf) konnten nicht direkt auf YouTube suchen.

Das bedeutete, dass ich jeden Video-Vorschlag manuell überprüfen musste, was meinen Workflow unterbrach. Ich erhielt eine Empfehlung, prüfte, ob sie existierte, und kehrte dann zum Codieren zurück. Kein riesiges Problem, aber definitiv ineffizient.

Um diesen Prozess zu optimieren, habe ich einen einfachen Model Control Protocol (MCP)-Server für YouTube erstellt. Er ermöglicht meinen KI-Codierungswerkzeugen, tatsächliche Videoinformationen ohne mein Eingreifen zu suchen und abzurufen.

Diese Anleitung erklärt, wie Sie Ihren eigenen MCP-Server erstellen. Es ist ein unkompliziertes Projekt, das Ihnen Zeit sparen kann, wenn Sie häufig benötigen, dass Ihr KI-Codierungsassistent auf externe Dienste wie YouTube zugreift.

Was ist ein MCP?

Stellen Sie sich vor, Sie verwenden einen KI-Assistenten wie Claude oder GPT, aber er kann nicht direkt auf das Internet oder andere Dienste zugreifen. Ein MCP (Model Control Protocol) ist wie ein Übersetzer, der der KI hilft, mit diesen Diensten zu kommunizieren.

Denken Sie darüber so: Wenn Sie Englisch sprechen und Ihr Freund Spanisch spricht, benötigen Sie einen Übersetzer, um zu kommunizieren. Ebenso übersetzt ein MCP-Server zwischen einem KI-Tool (wie Cursor oder Windsurf) und einem externen Dienst (wie YouTube). Er folgt bestimmten Regeln, damit beide Seiten sich perfekt verstehen.

Technisch gesehen ist es ein standardisierter API-Server, der bestimmten Formaten folgt, damit KI-Tools Daten ohne menschliches Eingreifen anfordern und empfangen können. Das Protokoll definiert, wie Anfragen formatiert werden, wie Antworten strukturiert sein sollten und wie Fehler behandelt werden.

Bemerkenswerterweise hat Anthropic sein Model Context Protocol Open Sourced, was es Entwicklern ermöglicht, sichere Verbindungen zwischen Datenquellen und KI-Tools aufzubauen. Ihre Implementierung umfasst SDKs, lokale Serverunterstützung in Claude Desktop-Apps und vorgefertigte Server für gängige Systeme wie Google Drive, GitHub und Slack.

Warum ich das brauchte

Learn English Sounds benötigt Videos, die die korrekte Aussprache für jedes Phonem zeigen. Ohne direkten YouTube-Zugriff schlugen Cursor oder Windsurf Videos vor, die oft nicht existierten, was mich zwang, jeden Vorschlag manuell zu überprüfen.

Beispiel-Workflow vor dem MCP:

Ich: „Ich brauche Videos für den ‚th‘-Laut.“
Cursor oder Windsurf: „Ich empfehle ‚English TH Sounds – How to pronounce TH correctly‘.“
Ich: „Gibt es das wirklich? Welcher Kanal ist das?“
Cursor oder Windsurf: „Es sollte auf dem Kanal ‚English Pronunciation‘ sein.“
Ich: *sucht auf YouTube* „Dieser Kanal existiert, aber das Video nicht.“

Erstellung des YouTube-Servers

Ich habe den Server mit Python und FastAPI erstellt und ihn mit der YouTube Data API verbunden. Hier ist das Architekturdiagramm, das zeigt, wie es funktioniert:

YouTube MCP Server Architekturdiagramm

Die größte Herausforderung war die Verwaltung der API-Kontingente von YouTube und die Sicherstellung, dass der Server die MCP-Spezifikation korrekt befolgte.

Wie es funktioniert

Mit dem MCP-Server können Cursor oder Windsurf jetzt direkt auf YouTube suchen und tatsächliche Videos mit Aufrufzahlen und Bewertungen bereitstellen. Dies reduziert den Aufwand und ermöglicht es mir, mich auf die Entwicklung zu konzentrieren.

Neuer Workflow:

Ich: „Finde Videos für den ‚th‘-Laut.“
Cursor oder Windsurf: *fragt den MCP-Server ab*
Cursor oder Windsurf: „Ich habe diese Optionen mit Aufrufzahlen und Bewertungen gefunden. Welche bevorzugen Sie?“
Ich: „Die erste.“
Cursor oder Windsurf: *fügt den Einbettungscode mit der korrekten Video-ID hinzu*

Technische Implementierungsdetails

Wichtige technische Überlegungen beim Erstellen eines MCP:

1. Authentifizierung: Die MCP-Spezifikation hat keine standardisierte Authentifizierungsmethode. Ich habe einen YouTube API-Schlüssel verwendet, der in einer Umgebungsvariablen (Datei .env) gespeichert ist.

2. Antwortformat: KI-Tools erwarten spezifische Antwortformate. Das Format variiert je nach Endpunkt, aber hier ist ein Beispiel vom search_videos-Endpunkt:


{
  "videos": [
    {
      "title": "How to Pronounce TH - English Pronunciation Lesson",
      "videoId": "dQw4w9WgXcQ",
      "channelTitle": "English Pronunciation",
      "description": "Learn how to pronounce the TH sound in English correctly."
    }
  ]
}

Und hier ist ein Beispiel vom get_video_details-Endpunkt, der umfassendere Informationen zurückgibt:


{
  "title": "How to Pronounce TH - English Pronunciation Lesson",
  "description": "Learn how to pronounce the TH sound in English correctly.",
  "channelTitle": "English Pronunciation",
  "publishedAt": "2023-04-15T14:30:00Z",
  "duration": "PT5M30S",
  "viewCount": "1234567",
  "likeCount": "12345",
  "commentCount": "1234"
}

3. Fehlerbehandlung: Konsistente Fehlerformate sind unerlässlich, da KI-Tools durch unerwartete Antworten verwirrt werden können. Meine Implementierung umfasst eine spezifische Fehlerbehandlung für verschiedene Szenarien:

  • Fehlender API-Schlüssel: „Fehler beim Initialisieren des YouTube-Dienstes. Überprüfen Sie die Umgebungsvariable YOUTUBE_API_KEY.“
  • Ungültiger API-Schlüssel: „Ein HTTP-Fehler 400 ist aufgetreten: [Fehlerinhalt]. Dies kann auf einen ungültigen oder fehlenden API-Schlüssel (YOUTUBE_API_KEY) hinweisen.“
  • Ressource nicht gefunden: „Video mit der ID ‚[video_id]‘ nicht gefunden.“
  • Allgemeine HTTP-Fehler: „Ein HTTP-Fehler [status] ist aufgetreten: [Fehlerinhalt]“

Warum das für KI-Codierungswerkzeuge wichtig ist

Wenn Sie mit KI-Assistenten wie Cursor oder Windsurf codieren, treffen Sie ständig Entscheidungen auf der Grundlage externer Informationen. Ohne MCPs arbeiten diese Tools im Wesentlichen mit verbundenen Augen, wenn es um Echtzeitdaten geht.

Hier sind die Gründe, warum MCPs für KI-Codierung bahnbrechend sind:

  • Reduzierte Kontextwechsel: Bleiben Sie in Ihrem Codierungsfluss, ohne zwischen Anwendungen wechseln zu müssen
  • Verifizierte Informationen: Erhalten Sie genaue Echtzeitdaten anstelle von potenziell veralteten oder halluzinierten Inhalten
  • Spezialisiertes Wissen: Greifen Sie auf domänenspezifische Informationen zu, auf die die KI nicht trainiert wurde
  • Angepasste Workflows: Erstellen Sie MCPs für Ihre spezifischen Bedürfnisse und Entwicklungsmuster

Laut der OpenAI-Dokumentation bieten MCPs „domänenspezifisches Wissen mit klaren Grenzen“, was sie ideal macht, um KI-Fähigkeiten auf kontrollierte, vorhersehbare Weise zu erweitern. Ebenso verwendet Anthropic's Claude Desktop-Anwendung MCPs, um Claude sicher mit Diensten wie Google Drive und GitHub zu verbinden.

Erstellen Sie Ihr eigenes MCP

Wenn Sie ein MCP erstellen möchten:

1. Beginnen Sie mit einem einzigen API-Endpunkt, der Ihnen am meisten Zeit sparen würde

2. Konzentrieren Sie sich darauf, das Antwortformat korrekt zu gestalten

3. Implementieren Sie eine ordnungsgemäße Fehlerbehandlung

Mein YouTube MCP enthält diese Endpunkte:

  • /search_videos – Videos finden, die einer Abfrage entsprechen
  • /get_video_details – Detaillierte Informationen zu einem bestimmten Video erhalten
  • /get_related_videos – Videos finden, die zu einem bestimmten Video gehören
  • /list_channel_videos – Aktuelle Uploads eines Kanals abrufen
  • /get_channel_details – Informationen zu einem YouTube-Kanal erhalten
  • /search_playlists – Playlists finden, die einer Abfrage entsprechen
  • /get_playlist_items – Videos in einer bestimmten Playlist abrufen

Ergebnisse

Die Erstellung dieses MCP-Servers hat meine Entwicklungszeit erheblich verkürzt. Cursor und Windsurf machen jetzt bessere Vorschläge basierend auf tatsächlichen Videodaten, und ich kann mich auf die Entwicklung konzentrieren, ohne den Kontext wechseln zu müssen, um YouTube zu durchsuchen.

Beliebte MCP-Server und aktuelle Verwendungen

Mehrere MCP-Server werden bereits in Produktionsumgebungen eingesetzt:

  • GitHub MCP: Ermöglicht KI-Tools die Suche in Repositories, die Anzeige von Code und den Zugriff auf Issues/PRs
  • Google Drive MCP: Ermöglicht die Dokumentensuche und den Abruf aus Google Drive
  • Slack MCP: Bietet Zugriff auf Kanäle, Nachrichten und Workspace-Informationen
  • Firebase MCP: Ermöglicht das Abfragen und Aktualisieren von Firestore-Sammlungen und -Dokumenten
  • MongoDB MCP: Bietet Zugriff auf MongoDB-Datenbanken für KI-gestützte Datenanalysen
  • PostgreSQL MCP: Ermöglicht KI-Tools das Abfragen relationaler Datenbanken und die Visualisierung von Ergebnissen
  • Jira MCP: Ermöglicht das Abfragen und Aktualisieren von Tickets und Projektinformationen
  • Mermaid MCP: Hilft bei der Generierung von Diagrammen aus Textbeschreibungen (ähnlich wie mein Mermaid-Automatisierungspost)
  • Wolfram Alpha MCP: Bietet rechnerisches und faktenbasiertes Wissen

Diese Server sind besonders beliebt bei Claude Desktop-Benutzern und Entwicklern, die mit Cursor oder Windsurf arbeiten. Da das MCP-Ökosystem wächst, sehen wir immer mehr spezialisierte Server für Bereiche wie Datenanalyse, API-Tests und Dokumentengenerierung.

Probieren Sie es selbst aus

Der Code für meinen YouTube MCP-Server ist auf GitHub verfügbar. Sie benötigen einen YouTube API-Schlüssel, um ihn einzurichten.