Empirische Methoden
Planung und Entwicklung von Forschungsprojekten
Forschungdesigns
explorativ
Ziel
neue Ideen und Einsichten
Wann
Anfang
Methoden
Expertenbefragungen
Pilotstudie
Subtopic
qualitative Forschung
Methoden
direkt
Interview
Leitfadeninterview
pro
unerwartete Einsichten und Ideen
Möglichkeit, direkt nachzufragen
Nuancierte Anworten als Fragebogen
Bei Analphabeten
contra
Interviewer-Bias
zeitaufwendig
Auswertung schwer
Ausgebildete Interviewer notwendig
Fokusgruppen
Pro
Detaillierte Informationen
kritische Infos für Entwicklung von Hypothesen
Gruppendynamik -> neue Erkenntnisse
Contra
Interviewer-Bias
zeitaufwendig
geschultes Personal
Auswertung schwierig
Charakteristika
Gruppengröße 8-12
Gruppen so "homogen wie möglich, so heterogen wie nötig"
Zeit 1-3 Stunden
möglichst entpannt, gechillt
Ziele
Probleme entdecken
Hintergrundinfos sammeln
neue Ideen und Einsichten
Hypothesen generieren
Evaluation von Programmen
Leitfaden für Moderator
Keine JA/Nein-Fragen
Keine Warum-Fragen
Thinkback-Fragen
Verlauf vorbereiten
offene Fragen
indirekt
Beobachtungsverfahren
Geeignet, wenn
ethisch vertretbar
kein langer Zeitraum notwendig
Häufiges Auftreten
Ereignis beobachtbar
Dimensionen
offen vs verdeckt
direkt vs indirekt
Charakteristika
Ältestes Verfahren
oft anwendbar
Erfasst Objektivität und Realiablilität
Oft hoher Aufwand
Projektive Techniken
Assoziationen
Thematischer Apperzeptionstest (TAT)
Deutung eines nicht eindeutigen Bildes
Dritte Person Technik
Implicit Association Test (IAT)
Messung "implizierter" Einstellungen
Zugang zu implizierten Einstellungen über die zugrundeliegenden automatischen Prozesse
Durchführung
Versuchspersonen müssen mittels Tastendruck Reize kategorisieren
Wortassozationstest
Satzvollverständigung
Verständigung
Expressiv
Gütekriterien
Objektivität
Realibilität
Validität
Datenauswertung
1. Text-/Quellenkritik
2. Datenmanagement
3. Fallbeschreibung
4. Kategoriensystem
5. Kodierung
6. Ergebnisbericht
Ziel: Verhalten verstehen
geringe Standardisierung
Merkmale
Analyse verbaler Daten
Interpretierende Auswertung
Hypthose suchend
Suche nach relevanten Inhalten
Orientierung an Gegenstand
Kleinere, "typische", gezielte Stichprobe
Explikative Datenanalyse (Anreicherung, Interpretation)
Verhalten "verstehen" & "interpretieren"
Datensammlung anhand einer Stichprobe zu einem einzigen Zeitpunkt
Single
eine Stichprobe, einmalige Datensammlung
Multi
mehrere Stichproben, jede wird nur einmal befragt
Optionen
Querschnitt (cross-sectional)
vs
Langschnitt (longitudinal)
Feststehende Stichprobe wird wiederholt befragt
deskriptiv
Ziel
Beschreibung von Zusammenhängen
Wann?
Nach Aufstellen von Hypothesen
Wofür?
Charakteristika bestimmter Gruppen beschreiben
Abschätzen, wie viele Personen einer bestimmte Population ein gewissen Verhalten zeigen
Vorhersagen treffen
Subtopic
Methoden
Quantitative Forschung
Merkmale
Frühzeitige Hypothesenbildung (ex ante)
Messen festgelegter Inhalte
Große Stichprobe
"Messen"
Ziel
Verhalten beschreiben, keine Aussagen über Ürsache & Wirkung
Informationsgewinn durch Datenreduktion
standardisiert, strukturiert
Panels
Definition:
Untertopic
Probleme
Panelmortalität
Selektionseffekte
Paneleffekte
Häufige Vertreter
Haushaltspanels
Retailpanels
Konsumentenpanels (Konsumentenverhalten, alltägliche Güter)
Beobachtungen
Befragungen
mündlich vs. schriftlich
stark strukturiert vs. situationsorientiert
persönliches Interview
Arten
inhome/office
--> zuhause
purchase-intercept
mall-intercept
telephone (computer assist)
Vorteile
Fokussierung auf für den Teilnehmer relevante Sachverhalte
eher wahre und vollständige Infos über soubjektive Sicht
Möglichkeit, neue unbekannte Sachverhalte zu entdecken
Nachteile
sehr zeitaufwendig und kostenintensiv
hohe Anforderungen des Interviewers
Auswertung ist schwer
keine zahlenmäßigen Mengenangaben ableitbar
Fragenbogen
Arten
Brief/Onlinepanelbefragung
Drop-Off-Survey
Faxbefragung
E-Mailbefragung
Internetbefragung
Vorteile
relativ große Stichprobe
-> bessere Verallgemeinbarkeit
standardisiertes Format
-> relative einfache Erhebungsart
Untersuchen verschiedener Konstrukte
Statistische Analysen und Gruppenvergleiche möglich
Nachteile
Entwicklung reliabler und valider Messinstrumente
keine oder kaum Kontrolle über Antwortzeiten
Ungewissheit über den Wahrheitsgehalt
Wie erhöht man die Antwortrate
mehrere Kontakte & Kontaktwege
Erklären, warum die Befragung wichtig ist
Anonymität und Vertraulichkeit zusichern
Incentivierung
kurze Dauer & ansprechend gestaltet
systematische Fehler
Administrative
Fehler Interviewer
Fehler Datenbereinigung
Stichprobenzusammensetzung
Fehler Interpretation der Daten
Messung und Design
Konstrukte falsch definiert und gemessen
Design Befragungsinstrument verwirrend
Befragte
nicht erreicht
verweigern Auskünfte
Selbstselektions-Bias
Antwortverzerrungen
Sekundärdaten
Definition: siehe Karteikarte
Dimensionen
intern vs extern
primär vs sekundär
Subtopic
Sekundärdatenbanken
Kommerzielle Anbieter haben Stichprobenzugang
Marketingrelevante Datenregelmäßig erhoben
Daten aus Sekundärdatenbanken werden in Panelform erhoben
Vorteile
schnelle Verfügbarkeit
große Stichproben
Preisgünstiger
echte Längsschnittdaten
Durchführung durch bekannte Institute
oftmals einzige Option
Nachteile
Erhebungsprozess außerhalb eigener Kontroller
keine eigenen Fragen möglich
hohes Aggregationsniveau
Daten nicht voll zugänglich
--> eingeschränkte Analysemöglichkeiten
Marketing oder Forschungsinteressen meist nicht neu oder einzigartig
Kunden DBs
werden als Infoquelle zunehmend wichtiger
idealerweise möglichst vollständige Kundeninof
Voraussetzung für erfolgreiches CRM
Endogenitätsproblem
experimentell
Ziel
Untersuchung von Ursache und Wirkung
Wann?
Wenn Hypothese vorhanden
Methoden
Experimente
Merkmale
Variation/Manipulation der UV
Beobachtung AV
Kontrolle von
Störvariablen
Arten
Variablen der Versuchsperson
Variablen der Untersuchungssituation
h
Randomisierung
keine Voraussetzung
Stichprobe in zwei Gruppen unterl
Matching
Voraussetzung: Störvariable bekannt und messbar
Störvariablen bei jeder VP messen und auf "gleiche" Gruppen aufteilen
Moderator
Charakteristika
Künstlicher Eingriff in das Geschehen & systematische Veränderung der UV's
Systematische Beobachtung der Auswirkung
Annahme: Gesetzmäßige Abhängigkeitsbeziehung
Zu prüfende Hypothese besitzt Vermutung über Beziehung von min 2 Variablen
Beziehungsart: kausal
MAX-KON-MIN-Regel
Wirkung UV -> AV maximieren
Störvariablen kontrollieren
unsystematische Variablen minimieren
Laborexperimente
alle Variablen weitestgehend kontrolliert
-> hohe interne Validität
Störvariablen ausgeschaltet
-> niedrige externe Validität
Generalisierbarkeit
Quasiexperiment
keine Randomisierung möglich
UV wird manipuliert
Feldexperimente
natürliches Setting
-> niedrige interne Validität
-> hohe externe Validität
-> schwer durchführbar
Komplexität der Versuchsanordnung
simpel
1 UV mit 2(+) Bedingung
komplex
Messwiederholung
between
jede Person wieder in genau einer Gruppe getestet
within
jede VPn wird mehrfach getestet
Anzahl der UV
Einfaktoriell
Mehrfaktoriell
Anzahl der AV
univariat
multivariat
Asysmmetrische Dominanzeffekt
Bewertung von Alternativen relativ zu verfügbaren Alternativen
somit lassen sich Entscheidungen steuern
Entscheidung dann gewählt, wenn in allen Punkten überlegen
Hypothesen
Zusammenhangshypothese
Unterschiedshypothese
Änderungshypothese
Main topic
Datenanalyse
Deskriptive Statistik
Def. Statistik -> Karteikarte
Ziel
Daten beschreiben
Übersicht über Stichprobe & Messgrößen
Basis für jede Art von quantitativer Datenanalyse
Erstellung Datenblatt
Kodierung
Mapping Antwortmöglichkeiten -> Zahlen
Dateneingabe
Datenprüfung und erste Analysen
Beschreibung der Charakteristika der Stichprobe
Maße der zentralen Tendenz
Mittelwert
für intervallskalierte Daten ohne extreme Werte
Median
für intervallskalierte Daten mit Ausreißern
Modalwert / Modus
nominalskalierte Daten
Maße der Variabilität
Variationsbreite ("Range")
für allgemeine Einschätzung aller Daten
Standardabweichung / Streuung
Vergleich von Verteilungen
leichter zu interpretieren als Varianz
Varianz
wird benötigt für weitere Analysen
schwer interpretierbar
Überprüfung der Datenqualität
Histogramme
fehlende Daten
Kodierung mit bspw. -99
Überprüfung der Messqualität
Schiefe
Mittelwert > Median
-> rechtsschief ("positively skewed")
Mittelwert < Median
-> linksschief ("negatively skewed")
Kurtosis
flacher als normal
-> platykurtisch
normal
-> mesokurtisch
spitzer als normal
-> leptokurtisch
Reliabilität
Chronbachs Alpha
Def. Karteikarte
Maß für interne Konsistenz
> 0.7 !
Varianz
Ausreißer
Erste Transformation
Berechnen des gemeinsamen Mittelwertes vieler Items
Wesentliche Informationen präsentieren (Graphen, Tabellen)
Merkmale einer guten Grafik
vorher planen
nur 1 zentrale Idee
Sparsamkeit
"weniger ist mehr"
Maßstab und Verhältnis 3:4 beachten
möglichst wenig Text
Elemente klar und deutlich benennen
"keep things balanced"
Analyse Studienergebnisse (Hypothesentests)
Inferenz-Statistik
Ziel
Beobachtungen der Deskriptiven Statistik generalisieren
t-Test
untersucht, ob sich Mittelwerte zweier Gruppen systematisch unterscheiden
H0 = Es gibt keinen Unterschied (?)
Voraussetzungen
untersuchte Merkmal intervallskaliert
untersuchte Merkmal normalverteilt
Varianzhomogenität
2x2 Matrix mit allen Möglichkeiten (H0, H1)
Alpha-Fehler
Beta-Fehler
Def. Karteikarte
Teststärke
Def. Karteikarte
Größe abhängig von
festgelegtes Signifikanzniveau
Stichprobengröße
angenommener Effekt
Nullhypothese vs. Alternativhypothese
Hypothesen
Unterschiedshypothesen
Signifikanztest
Ist die emp. ermittlete Differenz zwischen zwei Mittelwerten Zufall oder systematisch?
1. nach H0 wäre die zu erwartende Differenz Null
2. emp. ermitteltee Mittelwertsdifferenz -> standardisierten t-Wert
3. t-Wert -> Wahrscheinlichkeit
4. falls Wahrscheinlichkeit < 0.05 (Signifikanzniveau)
Effektstärke
Ausmaß der Wirkung eines experimentellen Faktors d
d = 0.2 => kleiner Effekt
d = 0.5 => Mittlerer Effekt
d = 0.8 => Großer Effekt
Zusammenhangshypothesen
ungerichtet vs. gerichtet
unspezifisch vs. spezifisch
Multivariate Analysemethoden
struktur-prüfende Verfahren
Merkmale
Überprüfung Zusammenhänge zwischen Variablen
Hypothesen liegen bereits vor
Beispiele
Varianzanalyse
Verfahren, welches den Vergleich mehrerer Mittelwerte erlaubt
mehrere t-Tests klappen jedoch nicht!
ANOVA
testet die unspezifische Alternativhypothese (= die allgemeine Behauptung, dass sich mindestens zwei Gruppen unterscheiden)
Zerlegung der Gesamtvarianz
systematische Einflüsse durch Manipulation
Effektvarianz durch Manipulation
unsystematische Einflüsse durch Störterme (Residualvarianz)
Schätzung durch "Varianz innerhalb"
"Varianz zwischen" = unsyst + syst
Anteil der systematischen / unsystematischen Varianz
F-Bruch
Varianz zwischen
--------------------
Varianz innerhalb
=1
=> es gibt keinen systematischen Einfluss des Experiments
>1
=> es gibt einen systematischen Einfluss des Experiments
auf Signifikanz prüfen
mehrstufiger Faktor, intervallskalierte AV
keine gerichteten Hypothesen, dies nur mit einem Post-Hoc-Test möglich
Terminologie
Faktor
UV
einfaktorielle Varianzanalyse
falls nur experimentelle Manipulation
Stufen eines Faktors
# realisierter Bedingungen
Haupteffekt
liegt zw. Stufen eines Faktors ein signifikantes Ergebnis vor
Treatmentfaktor
ZUO Probanden -> Gruppe zufällig (=Experiment)
Resultiert Effekt, ist dieser auf Manipulation
Klassifikationsfaktor
ZUO Probanden -> Gruppe aufgrund Personenmerkmale (=Quasiexperiment)
Resultiert Effekt, dann entweder wegen ZUO oder auf andere damit verbundene Merkmale
Regressionsanalyse
Zusammenhangshypothesen
Korrelation
Scatter plot
perfekte Korrelation
Korrelationskoeffizient
Vorzeichen
positiv
negativ
Größe
.00
-> kein Zusammenhang
.10
-> kleiner Effekt
.30
-> mittlerer Effekt
.50
-> großer Effekt
Arten
Nominal x Nominal -> Phi
Nominal x Ordinal -> Rang biserial
Nominal x Interval -> Punkt biserial
Ordinal x Ordinal -> Spearman-Rang
Interval x Interval -> Pearson Korrelations
Outliers
Arten
on-line outlier
-> Vergrößerung r
off-line outlier
-> Verringerung r
Interpretation von Korrelationstabellen
1. Korrelation signifikant unterschiedlich von 0?
2. Richtung des Zusammenhangs?
3. Größe des Zusammenhangs?
4. kleiner, mittlerer oder großer Effekt?
Alternative Interpretation von Korrelation
Reverse causation
Reciprocal causation
Spurious relationship (Scheinkorrelation)
Grund für Korrelation
Mediator
Def. -> Karteikarte
Bedingungen
1. UV - M
2. M - AV
3. Wenn 1. und 2. kontrolliert, ist UV - AV = 0
signifikante Regressionsanalysen
1. UV - AV
2. UV - M
3. M - AV
4. UV + M - AV (M signifikant, UV nicht mehr/reduziert)
Annahmen
Mediator ohne Messfehler gemessen
AV verursacht nicht UV
Wenn doch Messfehler in Messung des Mediators
Unterschätzen des Effekts M - AV
Überschätzung UV - AV
4 Fälle
1. UV und M kategorial --> 2x2 ANOVA
2. M kategorial, UV kontinuierlich -> Regressionen in Gruppen, Unterschiede im Regressionsgewicht testen
3. M kont., UV kat. -> Interaktionsterm
4. UV und M kont. -> Interaktionsterm
Moderator
Def. Karteikarte
Regressionsgerade
Ziel
Beschreibung linearer Beziehung in den Daten
Y-Werte vorhersagen
Testen des zugrunde liegenden Modells für Beziehung zwischen Variablen
Grundgleichung
Y = b0 + b1*X
Y : vorhergesagter Wert
b0 : Intercept
= mY - b1*mX
b1 : Slope
= rXY*sY/sX
Bestpassendste Gerade
am nächsten an Datenpunkten
Prädiktionsfehler möglichst gering
"kleinste Quadrate Regressionsgerade"
Vorzeichen heben sich nicht gegenseitig auf
große Fehler "härter bestraft"
es gibt nur genau eine(!) bestpassendste Gerade
Standardisierung
Steigung = Korrelation
Vergleichbarkeit
struktur-entdeckende Verfahren (KEINE INFERENZSTATISTIK)
Merkmale
Entdeckung von Zusammenhängen / "Mustern" in Daten
keine Vorannahmen => exploratives Vorgehen
Beispiele
Faktorenanalyse
Grundidee
Klassifizierung von Variablen, die das gleiche messen
-> "Faktoren"
Transformation korrelierter Variablen / Itmes in wenige latente Variablen / Faktoren
oft FA Ausgangspunkt für bspw. Regression, ANOVA, Clusteranalyse
Annahme, dass Korrelation zwischen Variablen von einem gemeinsamen Faktor hervorgerufen wird
ähnliche VARIABLEN werden zusammengefasst
Verwendung
Datenreduktion
Pasimonität ("Sparsamkeit")
Fehlerreduktion
Messung latenter Variablen durch Zusammenführen mehrerer manifester
Def. -> Karteikarte
Stufen
Korrelationsmatrix
Ablesen der Faktoren anhand der Korrelationskoeffizienten der einzelnen Variablen
Extraktion von Faktoren
Terminologie
Kommunalität
-> Def. Karteikarte
Eigenwert
Def -> Karteikarte
Methoden
Kaiser-Kriterium
Eigenwert > 1
Screeplot
Point of Inflexion
Rotation und Interpretation
Rotation
Ziel
bessere Interpretierbarkeit
verändert Faktorladungen und Eigenwerte, nicht aber die erklärte Varianz
Arten
orthogonale
Faktoren unkorreliert
90° Drehung
häufig: Varimax-Rotation
oblique
Faktoren korrelieren
Interpretation
subjektiv
keine einzig korrekte Methode
logisch denken ;)
Reliabilitätsprüfung
Chronbach's Alpha
Def. -> Karteikarte
> .7
ggf. Erneute Prüfung
Arten
explorativ
konfirmatorisch
Testen spezifizierter Hypothesen über die Strukutr latenter Variablen
Faktorwerte = Faktorladungen der einzelnen Variablen
Clusteranalyse
Grundidee
Klassifizierung von ähnlichen Objekten
-> "Gruppen"
intern homogen
extern heterogen
explorativ
anhand unterschiedlicher Charakteristika / Merkmale
alle Eigenschaften bewertet
ähnliche OBJEKTE werden zusammengefasst
Verwendung
Klassifikation
Datenreduktion
Hypothesenerzeugung
Vorgehen
1. Auswahl Proximitätsmaß
Nominale Daten
(meist) Ähnlichkeitsmaße
Quantifizieren Ähnlichkeit zwischen zwei Objekten
je größerer Wert, desto ähnlicher
Metrische Daten
(meist) Distanzmaße
Quantifizieren Unterschiedlichkeit zwischen zwei Objekten
je größer Wert, desto unterschiedlicher
Beispiele
Euklidische Distanz
Wurzel aus quadrierten Abweichungen von A und B pro Merkmal
"Luftlinie"
City-Block / Manhatten Metrik
Summe der Absolutbeträge
Distanzmatrix
Objekt i x Cluster j
Reduzieren = Zusammenfassen von kleinstem Abstand
2. Auswahl Fusionsalgorithmus
Hierarchische Verfahren
Divisive Clusterverfahren
Merkmale
Anfang
1 Cluster = alle Objekte
schrittweise aufteilen
"Top-down-Verfahren"
Agglomerative Clusterverfahren
Merkmale
Anfang
1 Cluster = 1 Objekt
schrittweise zu größeren Clustern vereinen
"Bottom-up-Verfahren"
Funktionsverhalten
kontrahierend
Single Linkage
Methode des nächsten Nachbarn
min(d1, d2)
neigt zur Kettenbildung
erzeugen wenige große und viele kleine Gruppen
dilatierend
Complete Linkage
Methode des entferntesten Nachbars
max(d1, d2)
neigt zur Cliquenbildung
erzeugen eher gleich große Gruppen
konservativ
Average Linkage
arithmetischer Mittelwert
Linkage
zwischen Gruppen
alle Paare ij aus Cluster i und Cluster j
innerhalb Gruppen
alle Paare ii, ij, jj aus Cluster i und Cluster j
Ward-Methode
varianzanalytischer Ansatz
Bildung homogener Gruppen
kleine Gruppen werden evtl. nicht erkannt
Partitionierende Verfahren
K-Means
Anfangspartition mit k Clustern
iterativ Objekte austauschen, bis Lösung optimal
man sollte verschiedene Startpartitionen ausprobieren
3. Bestimmung # Cluster
nach statistischen Kriterien
Heterogenitätsmaß
Sichprüfung des Dendogramms
nach sachlogischen Kriterien
Handhabung der Clusterlösung
Heterogenität der Cluster
Testen der Clusterlösung auf Sinn
1. ANOVA rechnen
2. Unterschiede zwischen Clustervariablen signifikant
-> extern heterogen
3. Varianzen innerhalb der Gruppen klein
-> intern homogen