Viele Herausforderungen und Probleme im Predictive Targeting können nur mit modernsten Erkenntnissen zu Algorithmen und Prognosverfahren vernünftig gelöst werden. Es ist nämlich keineswegs trivial aus dem Nutzungsverhalten eines Users andere Präferenzen oder gar seine demographischen Eigenschaften mit ausreichender Qualität vorherzusagen.
Zugleich ist es aus der Sicht des Machine Learnings und der Statistik ein ausserordentlich spannender Task – man hat massenweise ziemlich valide gemessene Nutzungsdaten und kann diese mit weiteren Datenquellen (z.B. Befragungen, aber auch Kaufdaten, Clicks etc.) verknüpfen. Auch der Anspruch an die Ausgabe ist ziemlich sportlich weil im Online-Umfeld Vorhersagen eigentlich immer realtime getroffen werden müssen – denn ansonsten ist der User schon wieder weg.
Hinzu kommt noch ein anderes pragmatisches Problem insbs. wenn man mit Befragungsdaten arbeitet: Die Daten sind nur unter aktiver Mitwirkung der User zu bekommen und damit teuer. User sind schnell von zu vielen Befragungen genervt und Portalverantwortliche wollen Ihre Leser auch nicht verärgern.
Insofern muss auch aus diesem Grund an Möglichkeiten gearbeitet werden mit weniger Befragungsinformationen zum gleichen Ziel zu kommen. Dies wirkt sich natürlich auch auf die Geschwindigkeit aus mit der eine Targeting-Installation einsatzbereit sein kann…
Übrigens gilt das Problem auch für zahlreiche andere 3rd-party Datenquellen die man im Targeting einbeziehen kann – zusätzliche Daten stehen fast nie für die gesamte Audience zur Verfügung und müssen demnach hochgerechnet werden. Auch hier würde man demnach von Verfahren profitieren die die verfügbaren Daten effizienter und intelligenter nutzen.
Ein häufiges Grundproblem dabei ist dass die Daten auch noch “schief” sind oder schlicht aus unterschiedlichen Verteilungen stammen. So wäre es z.B. durchaus denkbar die Fragebogenantworten eines Portals auf die Nutzer eines anderen Portals hochzurechnen. Aber nur wenn die Populationen der beiden Portale nahezu identisch sind was die verwendeten Merkmale anbelangt. Andernfalls drohen die Hochrechnungen unter erheblichen Fehlern zu leiden – denn jede noch so kleine Schiefe in den Ausgangsdaten wird durch die Hochrechnung nicht selten ins tausendfache gesteigert… (das Problem haben wir hier auch schonmal im Zusammenhang mit dem Agentur-Targeting diskutiert)
Unsere Kollegen vom Max Planck Institut für Informatik (jetzt Uni Potsdam) haben eine sehr spannende Vorgehensweise gewählt um das Problem zu lösen, die zu beeindruckenden Ergebnissen geführt hat.
Spannend ist vor allem die Herkunft der Lösung. In der Diskussion des Problems hatten die Kollegen nämlich festgestellt, dass bestimmte Fragestellungen in der Aids-Therapieforschung den oben beschriebenen Fragestellungen ähneln. Denn bei den Medikamentencoktails mit denen in der HIV-Therapie gearbeitet wird handelt es sich ja üblicherweise um komplexe Kombinationen mehrerer Wirkstoffe. Und es erhält auch nicht jeder Patient die gleiche Kombination sondern die wirksame Kombination muss häufig mühevoll und zeitraubend empirisch ermittelt werden. Auch hier kämpft man mit einem ähnlichen Problem wie oben – es ist aufwändig und “teuer” ausreichend Testfälle zu bekommen. Natürlich ist das in der HIV-Therapie ein deutlich brisanteres Problem als im Online-Marketing – der Vergleich bewegt sich schon an der Grenze des Zumutbaren. Dennoch ist aus methodischer Perspektive ein ähnliches Problem zu lösen.
In einem Konferenzbeitrag auf der ICML 08 hat Dr. Steffen Bickel zunächst erläutert wie die machine learning Lösung für den Bereich der HIV-Therapie aussieht und welche Erfolge dort erzielt werden konnten:
Multi-Task Learning for HIV Therapy Screening
Als die Übertragbarkeit dieser erfolgreichen Lösung des Problems auf unser Online-Marketing-Problem immer klarer wurde, begannen wir mit ersten Implementierungen und Versuchen das fürs Predictive Targeting zu nutzen.
Die Ergebnisse können in einem späteren Beitrag für die NIPS 08 bewundert werden.
Was man an den Graphiken erkennen kann ist, dass alle Verfahren mit zunehmender Fallzahl an Präzision gewinnen. Die schwarz gepunktete Linie verdeutlich dabei den “Normalfall”, dass für ein Portal Targeting-Profile mit den Befragungsdaten dieses Portals gelernt werden. Die rot gepunktete Linie beschreibt ein generisches Modell das aus einem Portalverbund gewonnen wurde und ohne spezielle Verteilungsanpassungen auf das Zielportal angewendet wurde. Die blaue und die eng-gepunktete Linie zeigen schliesslich das Modell welches die oben geschilderten Erkenntnisse anwendet und die Verteilungsunterschiede zu gewichten versucht.
Wie man sieht produzieren die dergestalt angepassten Modelle grundsätzlich eine höhere Präzision als die einfacheren Modelle. Dies ist insbesondere in Ramp-Up-Phasen aber auch generell unter geringen Fallzahlen gegeben.
Damit wurde tatsächlich der Beweis erbracht, dass Transfer-Lernen helfen kann das Fallzahl-Problem im Predictive Targeting deutlich zu mildern und sogar höhere Genauigkeiten bei kleineren Fallzahlen zu generieren.
Man braucht gar keine Vermarkter-Verbünde vor Augen zu haben um zu ermessen, welche Bedeutung eine solche Lösung fürs Targeting hat – denn jedes stinknormale Vermarkter-Portfolio hat bereits eine Charakteristik die nach solchen Lösungen verlangt.