Empirische Methoden

Planung und Entwicklung von Forschungsprojekten

Forschungdesigns

explorativ

Ziel

neue Ideen und Einsichten

Wann

Anfang

Methoden

Expertenbefragungen

Pilotstudie

Subtopic

qualitative Forschung

Methoden

direkt

Interview

Leitfadeninterview

pro

unerwartete Einsichten und Ideen

Möglichkeit, direkt nachzufragen

Nuancierte Anworten als Fragebogen

Bei Analphabeten

contra

Interviewer-Bias

zeitaufwendig

Auswertung schwer

Ausgebildete Interviewer notwendig

Fokusgruppen

Pro

Detaillierte Informationen

kritische Infos für Entwicklung von Hypothesen

Gruppendynamik -> neue Erkenntnisse

Contra

Interviewer-Bias

zeitaufwendig

geschultes Personal

Auswertung schwierig

Charakteristika

Gruppengröße 8-12

Gruppen so "homogen wie möglich, so heterogen wie nötig"

Zeit 1-3 Stunden

möglichst entpannt, gechillt

Ziele

Probleme entdecken

Hintergrundinfos sammeln

neue Ideen und Einsichten

Hypothesen generieren

Evaluation von Programmen

Leitfaden für Moderator

Keine JA/Nein-Fragen

Keine Warum-Fragen

Thinkback-Fragen

Verlauf vorbereiten

offene Fragen

indirekt

Beobachtungsverfahren

Geeignet, wenn

ethisch vertretbar

kein langer Zeitraum notwendig

Häufiges Auftreten

Ereignis beobachtbar

Dimensionen

offen vs verdeckt

direkt vs indirekt

Charakteristika

Ältestes Verfahren

oft anwendbar

Erfasst Objektivität und Realiablilität

Oft hoher Aufwand

Projektive Techniken

Assoziationen

Thematischer Apperzeptionstest (TAT)

Deutung eines nicht eindeutigen Bildes

Dritte Person Technik

Implicit Association Test (IAT)

Messung "implizierter" Einstellungen

Zugang zu implizierten Einstellungen über die zugrundeliegenden automatischen Prozesse

Durchführung

Versuchspersonen müssen mittels Tastendruck Reize kategorisieren

Wortassozationstest

Satzvollverständigung

Verständigung

Expressiv

Gütekriterien

Objektivität

Realibilität

Validität

Datenauswertung

1. Text-/Quellenkritik

2. Datenmanagement

3. Fallbeschreibung

4. Kategoriensystem

5. Kodierung

6. Ergebnisbericht

Ziel: Verhalten verstehen

geringe Standardisierung

Merkmale

Analyse verbaler Daten

Interpretierende Auswertung

Hypthose suchend

Suche nach relevanten Inhalten

Orientierung an Gegenstand

Kleinere, "typische", gezielte Stichprobe

Explikative Datenanalyse (Anreicherung, Interpretation)

Verhalten "verstehen" & "interpretieren"

Datensammlung anhand einer Stichprobe zu einem einzigen Zeitpunkt

Single

eine Stichprobe, einmalige Datensammlung

Multi

mehrere Stichproben, jede wird nur einmal befragt

Optionen

Querschnitt (cross-sectional)

vs

Langschnitt (longitudinal)

Feststehende Stichprobe wird wiederholt befragt

deskriptiv

Ziel

Beschreibung von Zusammenhängen

Wann?

Nach Aufstellen von Hypothesen

Wofür?

Charakteristika bestimmter Gruppen beschreiben

Abschätzen, wie viele Personen einer bestimmte Population ein gewissen Verhalten zeigen

Vorhersagen treffen

Subtopic

Methoden

Quantitative Forschung

Merkmale

Frühzeitige Hypothesenbildung (ex ante)

Messen festgelegter Inhalte

Große Stichprobe

"Messen"

Ziel

Verhalten beschreiben, keine Aussagen über Ürsache & Wirkung

Informationsgewinn durch Datenreduktion

standardisiert, strukturiert

Panels

Definition:

Untertopic

Probleme

Panelmortalität

Selektionseffekte

Paneleffekte

Häufige Vertreter

Haushaltspanels

Retailpanels

Konsumentenpanels (Konsumentenverhalten, alltägliche Güter)

Beobachtungen

Befragungen

mündlich vs. schriftlich

stark strukturiert vs. situationsorientiert

persönliches Interview

Arten

inhome/office

--> zuhause

purchase-intercept

mall-intercept

telephone (computer assist)

Vorteile

Fokussierung auf für den Teilnehmer relevante Sachverhalte

eher wahre und vollständige Infos über soubjektive Sicht

Möglichkeit, neue unbekannte Sachverhalte zu entdecken

Nachteile

sehr zeitaufwendig und kostenintensiv

hohe Anforderungen des Interviewers

Auswertung ist schwer

keine zahlenmäßigen Mengenangaben ableitbar

Fragenbogen

Arten

Brief/Onlinepanelbefragung

Drop-Off-Survey

Faxbefragung

E-Mailbefragung

Internetbefragung

Vorteile

relativ große Stichprobe

-> bessere Verallgemeinbarkeit

standardisiertes Format

-> relative einfache Erhebungsart

Untersuchen verschiedener Konstrukte

Statistische Analysen und Gruppenvergleiche möglich

Nachteile

Entwicklung reliabler und valider Messinstrumente

keine oder kaum Kontrolle über Antwortzeiten

Ungewissheit über den Wahrheitsgehalt

Wie erhöht man die Antwortrate

mehrere Kontakte & Kontaktwege

Erklären, warum die Befragung wichtig ist

Anonymität und Vertraulichkeit zusichern

Incentivierung

kurze Dauer & ansprechend gestaltet

systematische Fehler

Administrative

Fehler Interviewer

Fehler Datenbereinigung

Stichprobenzusammensetzung

Fehler Interpretation der Daten

Messung und Design

Konstrukte falsch definiert und gemessen

Design Befragungsinstrument verwirrend

Befragte

nicht erreicht

verweigern Auskünfte

Selbstselektions-Bias

Antwortverzerrungen

Sekundärdaten

Definition: siehe Karteikarte

Dimensionen

intern vs extern

primär vs sekundär

Subtopic

Sekundärdatenbanken

Kommerzielle Anbieter haben Stichprobenzugang

Marketingrelevante Datenregelmäßig erhoben

Daten aus Sekundärdatenbanken werden in Panelform erhoben

Vorteile

schnelle Verfügbarkeit

große Stichproben

Preisgünstiger

echte Längsschnittdaten

Durchführung durch bekannte Institute

oftmals einzige Option

Nachteile

Erhebungsprozess außerhalb eigener Kontroller

keine eigenen Fragen möglich

hohes Aggregationsniveau

Daten nicht voll zugänglich

--> eingeschränkte Analysemöglichkeiten

Marketing oder Forschungsinteressen meist nicht neu oder einzigartig

Kunden DBs

werden als Infoquelle zunehmend wichtiger

idealerweise möglichst vollständige Kundeninof

Voraussetzung für erfolgreiches CRM

Endogenitätsproblem

experimentell

Ziel

Untersuchung von Ursache und Wirkung

Wann?

Wenn Hypothese vorhanden

Methoden

Experimente

Merkmale

Variation/Manipulation der UV

Beobachtung AV

Kontrolle von

Störvariablen

Arten

Variablen der Versuchsperson

Variablen der Untersuchungssituation

h

Randomisierung

keine Voraussetzung

Stichprobe in zwei Gruppen unterl

Matching

Voraussetzung: Störvariable bekannt und messbar

Störvariablen bei jeder VP messen und auf "gleiche" Gruppen aufteilen

Moderator

Charakteristika

Künstlicher Eingriff in das Geschehen & systematische Veränderung der UV's

Systematische Beobachtung der Auswirkung

Annahme: Gesetzmäßige Abhängigkeitsbeziehung

Zu prüfende Hypothese besitzt Vermutung über Beziehung von min 2 Variablen

Beziehungsart: kausal

MAX-KON-MIN-Regel

Wirkung UV -> AV maximieren

Störvariablen kontrollieren

unsystematische Variablen minimieren

Laborexperimente

alle Variablen weitestgehend kontrolliert

-> hohe interne Validität

Störvariablen ausgeschaltet

-> niedrige externe Validität

Generalisierbarkeit

Quasiexperiment

keine Randomisierung möglich

UV wird manipuliert

Feldexperimente

natürliches Setting

-> niedrige interne Validität

-> hohe externe Validität

-> schwer durchführbar

Komplexität der Versuchsanordnung

simpel

1 UV mit 2(+) Bedingung

komplex

Messwiederholung

between

jede Person wieder in genau einer Gruppe getestet

within

jede VPn wird mehrfach getestet

Anzahl der UV

Einfaktoriell

Mehrfaktoriell

Anzahl der AV

univariat

multivariat

Asysmmetrische Dominanzeffekt

Bewertung von Alternativen relativ zu verfügbaren Alternativen

somit lassen sich Entscheidungen steuern

Entscheidung dann gewählt, wenn in allen Punkten überlegen

Hypothesen

Zusammenhangshypothese

Unterschiedshypothese

Änderungshypothese

Main topic

Datenanalyse

Deskriptive Statistik

Def. Statistik -> Karteikarte

Ziel

Daten beschreiben

Übersicht über Stichprobe & Messgrößen

Basis für jede Art von quantitativer Datenanalyse

Erstellung Datenblatt

Kodierung

Mapping Antwortmöglichkeiten -> Zahlen

Dateneingabe

Datenprüfung und erste Analysen

Beschreibung der Charakteristika der Stichprobe

Maße der zentralen Tendenz

Mittelwert

für intervallskalierte Daten ohne extreme Werte

Median

für intervallskalierte Daten mit Ausreißern

Modalwert / Modus

nominalskalierte Daten

Maße der Variabilität

Variationsbreite ("Range")

für allgemeine Einschätzung aller Daten

Standardabweichung / Streuung

Vergleich von Verteilungen

leichter zu interpretieren als Varianz

Varianz

wird benötigt für weitere Analysen

schwer interpretierbar

Überprüfung der Datenqualität

Histogramme

fehlende Daten

Kodierung mit bspw. -99

Überprüfung der Messqualität

Schiefe

Mittelwert > Median

-> rechtsschief ("positively skewed")

Mittelwert < Median

-> linksschief ("negatively skewed")

Kurtosis

flacher als normal

-> platykurtisch

normal

-> mesokurtisch

spitzer als normal

-> leptokurtisch

Reliabilität

Chronbachs Alpha

Def. Karteikarte

Maß für interne Konsistenz

> 0.7 !

Varianz

Ausreißer

Erste Transformation

Berechnen des gemeinsamen Mittelwertes vieler Items

Wesentliche Informationen präsentieren (Graphen, Tabellen)

Merkmale einer guten Grafik

vorher planen

nur 1 zentrale Idee

Sparsamkeit

"weniger ist mehr"

Maßstab und Verhältnis 3:4 beachten

möglichst wenig Text

Elemente klar und deutlich benennen

"keep things balanced"

Analyse Studienergebnisse (Hypothesentests)

Inferenz-Statistik

Ziel

Beobachtungen der Deskriptiven Statistik generalisieren

t-Test

untersucht, ob sich Mittelwerte zweier Gruppen systematisch unterscheiden

H0 = Es gibt keinen Unterschied (?)

Voraussetzungen

untersuchte Merkmal intervallskaliert

untersuchte Merkmal normalverteilt

Varianzhomogenität

2x2 Matrix mit allen Möglichkeiten (H0, H1)

Alpha-Fehler

Beta-Fehler

Def. Karteikarte

Teststärke

Def. Karteikarte

Größe abhängig von

festgelegtes Signifikanzniveau

Stichprobengröße

angenommener Effekt

Nullhypothese vs. Alternativhypothese

Hypothesen

Unterschiedshypothesen

Signifikanztest

Ist die emp. ermittlete Differenz zwischen zwei Mittelwerten Zufall oder systematisch?

1. nach H0 wäre die zu erwartende Differenz Null

2. emp. ermitteltee Mittelwertsdifferenz -> standardisierten t-Wert

3. t-Wert -> Wahrscheinlichkeit

4. falls Wahrscheinlichkeit < 0.05 (Signifikanzniveau)

Effektstärke

Ausmaß der Wirkung eines experimentellen Faktors d

d = 0.2 => kleiner Effekt

d = 0.5 => Mittlerer Effekt

d = 0.8 => Großer Effekt

Zusammenhangshypothesen

ungerichtet vs. gerichtet

unspezifisch vs. spezifisch

Multivariate Analysemethoden

struktur-prüfende Verfahren

Merkmale

Überprüfung Zusammenhänge zwischen Variablen

Hypothesen liegen bereits vor

Beispiele

Varianzanalyse

Verfahren, welches den Vergleich mehrerer Mittelwerte erlaubt

mehrere t-Tests klappen jedoch nicht!

ANOVA

testet die unspezifische Alternativhypothese (= die allgemeine Behauptung, dass sich mindestens zwei Gruppen unterscheiden)

Zerlegung der Gesamtvarianz

systematische Einflüsse durch Manipulation

Effektvarianz durch Manipulation

unsystematische Einflüsse durch Störterme (Residualvarianz)

Schätzung durch "Varianz innerhalb"

"Varianz zwischen" = unsyst + syst

Anteil der systematischen / unsystematischen Varianz

F-Bruch

Varianz zwischen

--------------------

Varianz innerhalb

=1

=> es gibt keinen systematischen Einfluss des Experiments

>1

=> es gibt einen systematischen Einfluss des Experiments

auf Signifikanz prüfen

mehrstufiger Faktor, intervallskalierte AV

keine gerichteten Hypothesen, dies nur mit einem Post-Hoc-Test möglich

Terminologie

Faktor

UV

einfaktorielle Varianzanalyse

falls nur experimentelle Manipulation

Stufen eines Faktors

# realisierter Bedingungen

Haupteffekt

liegt zw. Stufen eines Faktors ein signifikantes Ergebnis vor

Treatmentfaktor

ZUO Probanden -> Gruppe zufällig (=Experiment)

Resultiert Effekt, ist dieser auf Manipulation

Klassifikationsfaktor

ZUO Probanden -> Gruppe aufgrund Personenmerkmale (=Quasiexperiment)

Resultiert Effekt, dann entweder wegen ZUO oder auf andere damit verbundene Merkmale

Regressionsanalyse

Zusammenhangshypothesen

Korrelation

Scatter plot

perfekte Korrelation

Korrelationskoeffizient

Vorzeichen

positiv

negativ

Größe

.00

-> kein Zusammenhang

.10

-> kleiner Effekt

.30

-> mittlerer Effekt

.50

-> großer Effekt

Arten

Nominal x Nominal -> Phi

Nominal x Ordinal -> Rang biserial

Nominal x Interval -> Punkt biserial

Ordinal x Ordinal -> Spearman-Rang

Interval x Interval -> Pearson Korrelations

Outliers

Arten

on-line outlier

-> Vergrößerung r

off-line outlier

-> Verringerung r

Interpretation von Korrelationstabellen

1. Korrelation signifikant unterschiedlich von 0?

2. Richtung des Zusammenhangs?

3. Größe des Zusammenhangs?

4. kleiner, mittlerer oder großer Effekt?

Alternative Interpretation von Korrelation

Reverse causation

Reciprocal causation

Spurious relationship (Scheinkorrelation)

Grund für Korrelation

Mediator

Def. -> Karteikarte

Bedingungen

1. UV - M

2. M - AV

3. Wenn 1. und 2. kontrolliert, ist UV - AV = 0

signifikante Regressionsanalysen

1. UV - AV

2. UV - M

3. M - AV

4. UV + M - AV (M signifikant, UV nicht mehr/reduziert)

Annahmen

Mediator ohne Messfehler gemessen

AV verursacht nicht UV

Wenn doch Messfehler in Messung des Mediators

Unterschätzen des Effekts M - AV

Überschätzung UV - AV

4 Fälle

1. UV und M kategorial --> 2x2 ANOVA

2. M kategorial, UV kontinuierlich -> Regressionen in Gruppen, Unterschiede im Regressionsgewicht testen

3. M kont., UV kat. -> Interaktionsterm

4. UV und M kont. -> Interaktionsterm

Moderator

Def. Karteikarte

Regressionsgerade

Ziel

Beschreibung linearer Beziehung in den Daten

Y-Werte vorhersagen

Testen des zugrunde liegenden Modells für Beziehung zwischen Variablen

Grundgleichung

Y = b0 + b1*X

Y : vorhergesagter Wert

b0 : Intercept

= mY - b1*mX

b1 : Slope

= rXY*sY/sX

Bestpassendste Gerade

am nächsten an Datenpunkten

Prädiktionsfehler möglichst gering

"kleinste Quadrate Regressionsgerade"

Vorzeichen heben sich nicht gegenseitig auf

große Fehler "härter bestraft"

es gibt nur genau eine(!) bestpassendste Gerade

Standardisierung

Steigung = Korrelation

Vergleichbarkeit

struktur-entdeckende Verfahren (KEINE INFERENZSTATISTIK)

Merkmale

Entdeckung von Zusammenhängen / "Mustern" in Daten

keine Vorannahmen => exploratives Vorgehen

Beispiele

Faktorenanalyse

Grundidee

Klassifizierung von Variablen, die das gleiche messen

-> "Faktoren"

Transformation korrelierter Variablen / Itmes in wenige latente Variablen / Faktoren

oft FA Ausgangspunkt für bspw. Regression, ANOVA, Clusteranalyse

Annahme, dass Korrelation zwischen Variablen von einem gemeinsamen Faktor hervorgerufen wird

ähnliche VARIABLEN werden zusammengefasst

Verwendung

Datenreduktion

Pasimonität ("Sparsamkeit")

Fehlerreduktion

Messung latenter Variablen durch Zusammenführen mehrerer manifester

Def. -> Karteikarte

Stufen

Korrelationsmatrix

Ablesen der Faktoren anhand der Korrelationskoeffizienten der einzelnen Variablen

Extraktion von Faktoren

Terminologie

Kommunalität

-> Def. Karteikarte

Eigenwert

Def -> Karteikarte

Methoden

Kaiser-Kriterium

Eigenwert > 1

Screeplot

Point of Inflexion

Rotation und Interpretation

Rotation

Ziel

bessere Interpretierbarkeit

verändert Faktorladungen und Eigenwerte, nicht aber die erklärte Varianz

Arten

orthogonale

Faktoren unkorreliert

90° Drehung

häufig: Varimax-Rotation

oblique

Faktoren korrelieren

Interpretation

subjektiv

keine einzig korrekte Methode

logisch denken ;)

Reliabilitätsprüfung

Chronbach's Alpha

Def. -> Karteikarte

> .7

ggf. Erneute Prüfung

Arten

explorativ

konfirmatorisch

Testen spezifizierter Hypothesen über die Strukutr latenter Variablen

Faktorwerte = Faktorladungen der einzelnen Variablen

Clusteranalyse

Grundidee

Klassifizierung von ähnlichen Objekten

-> "Gruppen"

intern homogen

extern heterogen

explorativ

anhand unterschiedlicher Charakteristika / Merkmale

alle Eigenschaften bewertet

ähnliche OBJEKTE werden zusammengefasst

Verwendung

Klassifikation

Datenreduktion

Hypothesenerzeugung

Vorgehen

1. Auswahl Proximitätsmaß

Nominale Daten

(meist) Ähnlichkeitsmaße

Quantifizieren Ähnlichkeit zwischen zwei Objekten

je größerer Wert, desto ähnlicher

Metrische Daten

(meist) Distanzmaße

Quantifizieren Unterschiedlichkeit zwischen zwei Objekten

je größer Wert, desto unterschiedlicher

Beispiele

Euklidische Distanz

Wurzel aus quadrierten Abweichungen von A und B pro Merkmal

"Luftlinie"

City-Block / Manhatten Metrik

Summe der Absolutbeträge

Distanzmatrix

Objekt i x Cluster j

Reduzieren = Zusammenfassen von kleinstem Abstand

2. Auswahl Fusionsalgorithmus

Hierarchische Verfahren

Divisive Clusterverfahren

Merkmale

Anfang

1 Cluster = alle Objekte

schrittweise aufteilen

"Top-down-Verfahren"

Agglomerative Clusterverfahren

Merkmale

Anfang

1 Cluster = 1 Objekt

schrittweise zu größeren Clustern vereinen

"Bottom-up-Verfahren"

Funktionsverhalten

kontrahierend

Single Linkage

Methode des nächsten Nachbarn

min(d1, d2)

neigt zur Kettenbildung

erzeugen wenige große und viele kleine Gruppen

dilatierend

Complete Linkage

Methode des entferntesten Nachbars

max(d1, d2)

neigt zur Cliquenbildung

erzeugen eher gleich große Gruppen

konservativ

Average Linkage

arithmetischer Mittelwert

Linkage

zwischen Gruppen

alle Paare ij aus Cluster i und Cluster j

innerhalb Gruppen

alle Paare ii, ij, jj aus Cluster i und Cluster j

Ward-Methode

varianzanalytischer Ansatz

Bildung homogener Gruppen

kleine Gruppen werden evtl. nicht erkannt

Partitionierende Verfahren

K-Means

Anfangspartition mit k Clustern

iterativ Objekte austauschen, bis Lösung optimal

man sollte verschiedene Startpartitionen ausprobieren

3. Bestimmung # Cluster

nach statistischen Kriterien

Heterogenitätsmaß

Sichprüfung des Dendogramms

nach sachlogischen Kriterien

Handhabung der Clusterlösung

Heterogenität der Cluster

Testen der Clusterlösung auf Sinn

1. ANOVA rechnen

2. Unterschiede zwischen Clustervariablen signifikant

-> extern heterogen

3. Varianzen innerhalb der Gruppen klein

-> intern homogen