Empirische Methoden

Mere som dette

www.emi-app.de Strategie German

af Frank Mrosk

Chemie

af Laura Augustat

Mindmap

af Mario Kirchberger

Vokabeln lernen

af Annett Meißner

Datenanalyse

Analyse Studienergebnisse (Hypothesentests)

Inferenz-Statistik

Multivariate Analysemethoden

struktur-entdeckende Verfahren (KEINE INFERENZSTATISTIK)

Clusteranalyse

Vorgehen

3. Bestimmung # Cluster

Testen der Clusterlösung auf Sinn

3. Varianzen innerhalb der Gruppen klein

-> intern homogen

2. Unterschiede zwischen Clustervariablen signifikant

-> extern heterogen

1. ANOVA rechnen

nach sachlogischen Kriterien

Heterogenität der Cluster

Handhabung der Clusterlösung

nach statistischen Kriterien

Sichprüfung des Dendogramms

Heterogenitätsmaß

2. Auswahl Fusionsalgorithmus

Partitionierende Verfahren

K-Means

man sollte verschiedene Startpartitionen ausprobieren

iterativ Objekte austauschen, bis Lösung optimal

Anfangspartition mit k Clustern

Hierarchische Verfahren

Agglomerative Clusterverfahren

Funktionsverhalten

konservativ

Ward-Methode

kleine Gruppen werden evtl. nicht erkannt

Bildung homogener Gruppen

varianzanalytischer Ansatz

Average Linkage

Linkage

innerhalb Gruppen

alle Paare ii, ij, jj aus Cluster i und Cluster j

zwischen Gruppen

alle Paare ij aus Cluster i und Cluster j

arithmetischer Mittelwert

dilatierend

erzeugen eher gleich große Gruppen

Complete Linkage

neigt zur Cliquenbildung

max(d1, d2)

Methode des entferntesten Nachbars

kontrahierend

erzeugen wenige große und viele kleine Gruppen

Single Linkage

neigt zur Kettenbildung

min(d1, d2)

Methode des nächsten Nachbarn

"Bottom-up-Verfahren"

schrittweise zu größeren Clustern vereinen

1 Cluster = 1 Objekt

Divisive Clusterverfahren

"Top-down-Verfahren"

schrittweise aufteilen

1 Cluster = alle Objekte

1. Auswahl Proximitätsmaß

Distanzmatrix

Reduzieren = Zusammenfassen von kleinstem Abstand

Objekt i x Cluster j

Metrische Daten

(meist) Distanzmaße

City-Block / Manhatten Metrik

Summe der Absolutbeträge

Euklidische Distanz

"Luftlinie"

Wurzel aus quadrierten Abweichungen von A und B pro Merkmal

je größer Wert, desto unterschiedlicher

Quantifizieren Unterschiedlichkeit zwischen zwei Objekten

Nominale Daten

(meist) Ähnlichkeitsmaße

je größerer Wert, desto ähnlicher

Quantifizieren Ähnlichkeit zwischen zwei Objekten

Hypothesenerzeugung

Klassifikation

ähnliche OBJEKTE werden zusammengefasst

Klassifizierung von ähnlichen Objekten

alle Eigenschaften bewertet

anhand unterschiedlicher Charakteristika / Merkmale

-> "Gruppen"

extern heterogen

intern homogen

Faktorenanalyse

Faktorwerte = Faktorladungen der einzelnen Variablen

konfirmatorisch

Testen spezifizierter Hypothesen über die Strukutr latenter Variablen

Stufen

ggf. Erneute Prüfung

Reliabilitätsprüfung

Chronbach's Alpha

> .7

Rotation und Interpretation

Interpretation

logisch denken ;)

keine einzig korrekte Methode

subjektiv

Rotation

oblique

Faktoren korrelieren

orthogonale

häufig: Varimax-Rotation

90° Drehung

Faktoren unkorreliert

verändert Faktorladungen und Eigenwerte, nicht aber die erklärte Varianz

bessere Interpretierbarkeit

Extraktion von Faktoren

Screeplot

Point of Inflexion

Kaiser-Kriterium

Eigenwert > 1

Eigenwert

Def -> Karteikarte

Kommunalität

-> Def. Karteikarte

Korrelationsmatrix

Ablesen der Faktoren anhand der Korrelationskoeffizienten der einzelnen Variablen

Verwendung

Messung latenter Variablen durch Zusammenführen mehrerer manifester

Datenreduktion

Fehlerreduktion

Pasimonität ("Sparsamkeit")

Grundidee

ähnliche VARIABLEN werden zusammengefasst

Annahme, dass Korrelation zwischen Variablen von einem gemeinsamen Faktor hervorgerufen wird

oft FA Ausgangspunkt für bspw. Regression, ANOVA, Clusteranalyse

Transformation korrelierter Variablen / Itmes in wenige latente Variablen / Faktoren

Klassifizierung von Variablen, die das gleiche messen

-> "Faktoren"

keine Vorannahmen => exploratives Vorgehen

Entdeckung von Zusammenhängen / "Mustern" in Daten

struktur-prüfende Verfahren

Beispiele

Regressionsanalyse

Regressionsgerade

Standardisierung

Vergleichbarkeit

Steigung = Korrelation

Bestpassendste Gerade

es gibt nur genau eine(!) bestpassendste Gerade

"kleinste Quadrate Regressionsgerade"

große Fehler "härter bestraft"

Vorzeichen heben sich nicht gegenseitig auf

Prädiktionsfehler möglichst gering

am nächsten an Datenpunkten

Grundgleichung

Y = b0 + b1*X

b1 : Slope

= rXY*sY/sX

b0 : Intercept

= mY - b1*mX

Y : vorhergesagter Wert

Testen des zugrunde liegenden Modells für Beziehung zwischen Variablen

Y-Werte vorhersagen

Beschreibung linearer Beziehung in den Daten

Korrelation

Grund für Korrelation

Mediator

4 Fälle

4. UV und M kont. -> Interaktionsterm

3. M kont., UV kat. -> Interaktionsterm

2. M kategorial, UV kontinuierlich -> Regressionen in Gruppen, Unterschiede im Regressionsgewicht testen

1. UV und M kategorial --> 2x2 ANOVA

Annahmen

Wenn doch Messfehler in Messung des Mediators

Überschätzung UV - AV

Unterschätzen des Effekts M - AV

AV verursacht nicht UV

Mediator ohne Messfehler gemessen

signifikante Regressionsanalysen

4. UV + M - AV (M signifikant, UV nicht mehr/reduziert)

3. M - AV

2. UV - M

1. UV - AV

Bedingungen

3. Wenn 1. und 2. kontrolliert, ist UV - AV = 0

2. M - AV

1. UV - M

Def. -> Karteikarte

Alternative Interpretation von Korrelation

Spurious relationship (Scheinkorrelation)

Reciprocal causation

Reverse causation

Interpretation von Korrelationstabellen

4. kleiner, mittlerer oder großer Effekt?

3. Größe des Zusammenhangs?

2. Richtung des Zusammenhangs?

1. Korrelation signifikant unterschiedlich von 0?

Outliers

off-line outlier

-> Verringerung r

on-line outlier

-> Vergrößerung r

Korrelationskoeffizient

Interval x Interval -> Pearson Korrelations

Ordinal x Ordinal -> Spearman-Rang

Nominal x Interval -> Punkt biserial

Nominal x Ordinal -> Rang biserial

Nominal x Nominal -> Phi

Größe

.50

-> großer Effekt

.30

-> mittlerer Effekt

.10

-> kleiner Effekt

.00

-> kein Zusammenhang

Vorzeichen

negativ

positiv

perfekte Korrelation

Scatter plot

Varianzanalyse

Terminologie

Klassifikationsfaktor

Resultiert Effekt, dann entweder wegen ZUO oder auf andere damit verbundene Merkmale

ZUO Probanden -> Gruppe aufgrund Personenmerkmale (=Quasiexperiment)

Treatmentfaktor

Resultiert Effekt, ist dieser auf Manipulation

ZUO Probanden -> Gruppe zufällig (=Experiment)

Haupteffekt

liegt zw. Stufen eines Faktors ein signifikantes Ergebnis vor

Stufen eines Faktors

# realisierter Bedingungen

einfaktorielle Varianzanalyse

falls nur experimentelle Manipulation

Faktor

Verfahren, welches den Vergleich mehrerer Mittelwerte erlaubt

ANOVA

keine gerichteten Hypothesen, dies nur mit einem Post-Hoc-Test möglich

mehrstufiger Faktor, intervallskalierte AV

F-Bruch

auf Signifikanz prüfen

=> es gibt einen systematischen Einfluss des Experiments

=> es gibt keinen systematischen Einfluss des Experiments

Varianz innerhalb

--------------------

Varianz zwischen

Anteil der systematischen / unsystematischen Varianz

Zerlegung der Gesamtvarianz

"Varianz zwischen" = unsyst + syst

unsystematische Einflüsse durch Störterme (Residualvarianz)

Schätzung durch "Varianz innerhalb"

systematische Einflüsse durch Manipulation

Effektvarianz durch Manipulation

testet die unspezifische Alternativhypothese (= die allgemeine Behauptung, dass sich mindestens zwei Gruppen unterscheiden)

mehrere t-Tests klappen jedoch nicht!

Hypothesen liegen bereits vor

Überprüfung Zusammenhänge zwischen Variablen

unspezifisch vs. spezifisch

ungerichtet vs. gerichtet

Zusammenhangshypothesen

Unterschiedshypothesen

Signifikanztest

Effektstärke

Ausmaß der Wirkung eines experimentellen Faktors d

d = 0.8 => Großer Effekt

d = 0.5 => Mittlerer Effekt

d = 0.2 => kleiner Effekt

Ist die emp. ermittlete Differenz zwischen zwei Mittelwerten Zufall oder systematisch?

4. falls Wahrscheinlichkeit < 0.05 (Signifikanzniveau)

3. t-Wert -> Wahrscheinlichkeit

2. emp. ermitteltee Mittelwertsdifferenz -> standardisierten t-Wert

1. nach H0 wäre die zu erwartende Differenz Null

t-Test

Nullhypothese vs. Alternativhypothese

2x2 Matrix mit allen Möglichkeiten (H0, H1)

Beta-Fehler

Größe abhängig von

angenommener Effekt

Stichprobengröße

festgelegtes Signifikanzniveau

Teststärke

Alpha-Fehler

Voraussetzungen

Varianzhomogenität

untersuchte Merkmal normalverteilt

untersuchte Merkmal intervallskaliert

H0 = Es gibt keinen Unterschied (?)

untersucht, ob sich Mittelwerte zweier Gruppen systematisch unterscheiden

Beobachtungen der Deskriptiven Statistik generalisieren

Deskriptive Statistik

Datenprüfung und erste Analysen

Wesentliche Informationen präsentieren (Graphen, Tabellen)

Merkmale einer guten Grafik

"keep things balanced"

Elemente klar und deutlich benennen

möglichst wenig Text

Maßstab und Verhältnis 3:4 beachten

"weniger ist mehr"

Sparsamkeit

nur 1 zentrale Idee

vorher planen

Erste Transformation

Berechnen des gemeinsamen Mittelwertes vieler Items

Überprüfung der Messqualität

Ausreißer

Reliabilität

Chronbachs Alpha

> 0.7 !

Maß für interne Konsistenz

Def. Karteikarte

Kurtosis

spitzer als normal

-> leptokurtisch

normal

-> mesokurtisch

flacher als normal

-> platykurtisch

Schiefe

Mittelwert < Median

-> linksschief ("negatively skewed")

Mittelwert > Median

-> rechtsschief ("positively skewed")

Überprüfung der Datenqualität

fehlende Daten

Kodierung mit bspw. -99

Histogramme

Beschreibung der Charakteristika der Stichprobe

Maße der Variabilität

Varianz

schwer interpretierbar

wird benötigt für weitere Analysen

Standardabweichung / Streuung

leichter zu interpretieren als Varianz

Vergleich von Verteilungen

Variationsbreite ("Range")

für allgemeine Einschätzung aller Daten

Maße der zentralen Tendenz

Modalwert / Modus

nominalskalierte Daten

Median

für intervallskalierte Daten mit Ausreißern

Mittelwert

für intervallskalierte Daten ohne extreme Werte

Erstellung Datenblatt

Dateneingabe

Kodierung

Mapping Antwortmöglichkeiten -> Zahlen

Basis für jede Art von quantitativer Datenanalyse

Übersicht über Stichprobe & Messgrößen

Daten beschreiben

Def. Statistik -> Karteikarte

Main topic

Planung und Entwicklung von Forschungsprojekten

Hypothesen

Änderungshypothese

Unterschiedshypothese

Zusammenhangshypothese

Forschungdesigns

experimentell

Asysmmetrische Dominanzeffekt

somit lassen sich Entscheidungen steuern

Entscheidung dann gewählt, wenn in allen Punkten überlegen

Bewertung von Alternativen relativ zu verfügbaren Alternativen

Komplexität der Versuchsanordnung

komplex

Anzahl der AV

multivariat

univariat

Anzahl der UV

Mehrfaktoriell

Einfaktoriell

Messwiederholung

within

jede VPn wird mehrfach getestet

between

jede Person wieder in genau einer Gruppe getestet

simpel

1 UV mit 2(+) Bedingung

Quasiexperiment

Feldexperimente

natürliches Setting

-> schwer durchführbar

-> hohe externe Validität

-> niedrige interne Validität

UV wird manipuliert

keine Randomisierung möglich

Experimente

Laborexperimente

alle Variablen weitestgehend kontrolliert

-> niedrige externe Validität

Generalisierbarkeit

-> hohe interne Validität

Störvariablen ausgeschaltet

MAX-KON-MIN-Regel

unsystematische Variablen minimieren

Störvariablen kontrollieren

Wirkung UV -> AV maximieren

Beziehungsart: kausal

Zu prüfende Hypothese besitzt Vermutung über Beziehung von min 2 Variablen

Annahme: Gesetzmäßige Abhängigkeitsbeziehung

Künstlicher Eingriff in das Geschehen & systematische Veränderung der UV's

Systematische Beobachtung der Auswirkung

Kontrolle von

Moderator

Störvariablen

Matching

Störvariablen bei jeder VP messen und auf "gleiche" Gruppen aufteilen

Voraussetzung: Störvariable bekannt und messbar

Randomisierung

Stichprobe in zwei Gruppen unterl

keine Voraussetzung

Variablen der Untersuchungssituation

Variablen der Versuchsperson

Beobachtung AV

Variation/Manipulation der UV

Wenn Hypothese vorhanden

Untersuchung von Ursache und Wirkung

deskriptiv

Endogenitätsproblem

Kunden DBs

Voraussetzung für erfolgreiches CRM

idealerweise möglichst vollständige Kundeninof

werden als Infoquelle zunehmend wichtiger

Sekundärdaten

Marketing oder Forschungsinteressen meist nicht neu oder einzigartig

Sekundärdatenbanken

Daten nicht voll zugänglich

--> eingeschränkte Analysemöglichkeiten

hohes Aggregationsniveau

keine eigenen Fragen möglich

Erhebungsprozess außerhalb eigener Kontroller

oftmals einzige Option

Durchführung durch bekannte Institute

echte Längsschnittdaten

Preisgünstiger

große Stichproben

schnelle Verfügbarkeit

Daten aus Sekundärdatenbanken werden in Panelform erhoben

Marketingrelevante Datenregelmäßig erhoben

Kommerzielle Anbieter haben Stichprobenzugang

primär vs sekundär

intern vs extern

Definition: siehe Karteikarte

Befragungen

Fragenbogen

systematische Fehler

Befragte

Antwortverzerrungen

Selbstselektions-Bias

verweigern Auskünfte

nicht erreicht

Messung und Design

Design Befragungsinstrument verwirrend

Konstrukte falsch definiert und gemessen

Administrative

Fehler Interpretation der Daten

Stichprobenzusammensetzung

Fehler Datenbereinigung

Fehler Interviewer

Wie erhöht man die Antwortrate

kurze Dauer & ansprechend gestaltet

Incentivierung

Anonymität und Vertraulichkeit zusichern

Erklären, warum die Befragung wichtig ist

mehrere Kontakte & Kontaktwege

Ungewissheit über den Wahrheitsgehalt

keine oder kaum Kontrolle über Antwortzeiten

Entwicklung reliabler und valider Messinstrumente

Statistische Analysen und Gruppenvergleiche möglich

Untersuchen verschiedener Konstrukte

standardisiertes Format

-> relative einfache Erhebungsart

relativ große Stichprobe

-> bessere Verallgemeinbarkeit

Internetbefragung

E-Mailbefragung

Faxbefragung

Drop-Off-Survey

Brief/Onlinepanelbefragung

persönliches Interview

Nachteile

keine zahlenmäßigen Mengenangaben ableitbar

Auswertung ist schwer

hohe Anforderungen des Interviewers

sehr zeitaufwendig und kostenintensiv

Vorteile

Möglichkeit, neue unbekannte Sachverhalte zu entdecken

eher wahre und vollständige Infos über soubjektive Sicht

Fokussierung auf für den Teilnehmer relevante Sachverhalte

Arten

telephone (computer assist)

mall-intercept

purchase-intercept

inhome/office

--> zuhause

stark strukturiert vs. situationsorientiert

mündlich vs. schriftlich

Beobachtungen

Panels

Häufige Vertreter

Konsumentenpanels (Konsumentenverhalten, alltägliche Güter)

Retailpanels

Haushaltspanels

Probleme

Paneleffekte

Selektionseffekte

Panelmortalität

Definition:

Untertopic

Quantitative Forschung

standardisiert, strukturiert

Informationsgewinn durch Datenreduktion

Verhalten beschreiben, keine Aussagen über Ürsache & Wirkung

"Messen"

Große Stichprobe

Messen festgelegter Inhalte

Frühzeitige Hypothesenbildung (ex ante)

Wofür?

Vorhersagen treffen

Abschätzen, wie viele Personen einer bestimmte Population ein gewissen Verhalten zeigen

Charakteristika bestimmter Gruppen beschreiben

Wann?

Nach Aufstellen von Hypothesen

Beschreibung von Zusammenhängen

Optionen

Langschnitt (longitudinal)

Feststehende Stichprobe wird wiederholt befragt

Querschnitt (cross-sectional)

explorativ

Datensammlung anhand einer Stichprobe zu einem einzigen Zeitpunkt

Multi

mehrere Stichproben, jede wird nur einmal befragt

Single

eine Stichprobe, einmalige Datensammlung

Methoden

qualitative Forschung

Merkmale

Verhalten "verstehen" & "interpretieren"

Explikative Datenanalyse (Anreicherung, Interpretation)

Kleinere, "typische", gezielte Stichprobe

Orientierung an Gegenstand

Suche nach relevanten Inhalten

Hypthose suchend

Interpretierende Auswertung

Analyse verbaler Daten

geringe Standardisierung

Ziel: Verhalten verstehen

Datenauswertung

6. Ergebnisbericht

5. Kodierung

4. Kategoriensystem

3. Fallbeschreibung

2. Datenmanagement

1. Text-/Quellenkritik

Gütekriterien

Validität

Realibilität

Objektivität

indirekt

Projektive Techniken

Expressiv

Verständigung

Assoziationen

Satzvollverständigung

Wortassozationstest

Implicit Association Test (IAT)

Durchführung

Versuchspersonen müssen mittels Tastendruck Reize kategorisieren

Zugang zu implizierten Einstellungen über die zugrundeliegenden automatischen Prozesse

Messung "implizierter" Einstellungen

Dritte Person Technik

Thematischer Apperzeptionstest (TAT)

Deutung eines nicht eindeutigen Bildes

Beobachtungsverfahren

Oft hoher Aufwand

Erfasst Objektivität und Realiablilität

oft anwendbar

Ältestes Verfahren

Dimensionen

direkt vs indirekt

offen vs verdeckt

Geeignet, wenn

Ereignis beobachtbar

Häufiges Auftreten

kein langer Zeitraum notwendig

ethisch vertretbar

direkt

Fokusgruppen

Leitfaden für Moderator

offene Fragen

Verlauf vorbereiten

Thinkback-Fragen

Keine Warum-Fragen

Keine JA/Nein-Fragen

Ziele

Evaluation von Programmen

Hypothesen generieren

Hintergrundinfos sammeln

Probleme entdecken

Charakteristika

möglichst entpannt, gechillt

Zeit 1-3 Stunden

Gruppen so "homogen wie möglich, so heterogen wie nötig"

Gruppengröße 8-12

Contra

Auswertung schwierig

geschultes Personal

Pro

Gruppendynamik -> neue Erkenntnisse

kritische Infos für Entwicklung von Hypothesen

Detaillierte Informationen

Interview

Leitfadeninterview

contra

Ausgebildete Interviewer notwendig

Auswertung schwer

zeitaufwendig

Interviewer-Bias

pro

Bei Analphabeten

Nuancierte Anworten als Fragebogen

Möglichkeit, direkt nachzufragen

unerwartete Einsichten und Ideen

Subtopic

Pilotstudie

Expertenbefragungen

Wann

Anfang

Ziel

neue Ideen und Einsichten

Empirische Methoden