によって Tux ZuSe 11年前.
768
もっと見る
Multivariate Analysemethoden
struktur-entdeckende Verfahren (KEINE INFERENZSTATISTIK)
Clusteranalyse
Vorgehen
3. Bestimmung # Cluster
Testen der Clusterlösung auf Sinn
3. Varianzen innerhalb der Gruppen klein
-> intern homogen
2. Unterschiede zwischen Clustervariablen signifikant
-> extern heterogen
1. ANOVA rechnen
nach sachlogischen Kriterien
Heterogenität der Cluster
Handhabung der Clusterlösung
nach statistischen Kriterien
Sichprüfung des Dendogramms
Heterogenitätsmaß
2. Auswahl Fusionsalgorithmus
Partitionierende Verfahren
K-Means
man sollte verschiedene Startpartitionen ausprobieren
iterativ Objekte austauschen, bis Lösung optimal
Anfangspartition mit k Clustern
Hierarchische Verfahren
Agglomerative Clusterverfahren
Funktionsverhalten
konservativ
Ward-Methode
kleine Gruppen werden evtl. nicht erkannt
Bildung homogener Gruppen
varianzanalytischer Ansatz
Average Linkage
Linkage
innerhalb Gruppen
alle Paare ii, ij, jj aus Cluster i und Cluster j
zwischen Gruppen
alle Paare ij aus Cluster i und Cluster j
arithmetischer Mittelwert
dilatierend
erzeugen eher gleich große Gruppen
Complete Linkage
neigt zur Cliquenbildung
max(d1, d2)
Methode des entferntesten Nachbars
kontrahierend
erzeugen wenige große und viele kleine Gruppen
Single Linkage
neigt zur Kettenbildung
min(d1, d2)
Methode des nächsten Nachbarn
"Bottom-up-Verfahren"
schrittweise zu größeren Clustern vereinen
1 Cluster = 1 Objekt
Divisive Clusterverfahren
"Top-down-Verfahren"
schrittweise aufteilen
1 Cluster = alle Objekte
1. Auswahl Proximitätsmaß
Distanzmatrix
Reduzieren = Zusammenfassen von kleinstem Abstand
Objekt i x Cluster j
Metrische Daten
(meist) Distanzmaße
City-Block / Manhatten Metrik
Summe der Absolutbeträge
Euklidische Distanz
"Luftlinie"
Wurzel aus quadrierten Abweichungen von A und B pro Merkmal
je größer Wert, desto unterschiedlicher
Quantifizieren Unterschiedlichkeit zwischen zwei Objekten
Nominale Daten
(meist) Ähnlichkeitsmaße
je größerer Wert, desto ähnlicher
Quantifizieren Ähnlichkeit zwischen zwei Objekten
Hypothesenerzeugung
Klassifikation
ähnliche OBJEKTE werden zusammengefasst
Klassifizierung von ähnlichen Objekten
alle Eigenschaften bewertet
anhand unterschiedlicher Charakteristika / Merkmale
-> "Gruppen"
extern heterogen
intern homogen
Faktorenanalyse
Faktorwerte = Faktorladungen der einzelnen Variablen
konfirmatorisch
Testen spezifizierter Hypothesen über die Strukutr latenter Variablen
Stufen
ggf. Erneute Prüfung
Reliabilitätsprüfung
Chronbach's Alpha
> .7
Rotation und Interpretation
Interpretation
logisch denken ;)
keine einzig korrekte Methode
subjektiv
Rotation
oblique
Faktoren korrelieren
orthogonale
häufig: Varimax-Rotation
90° Drehung
Faktoren unkorreliert
verändert Faktorladungen und Eigenwerte, nicht aber die erklärte Varianz
bessere Interpretierbarkeit
Extraktion von Faktoren
Screeplot
Point of Inflexion
Kaiser-Kriterium
Eigenwert > 1
Eigenwert
Def -> Karteikarte
Kommunalität
-> Def. Karteikarte
Korrelationsmatrix
Ablesen der Faktoren anhand der Korrelationskoeffizienten der einzelnen Variablen
Verwendung
Messung latenter Variablen durch Zusammenführen mehrerer manifester
Datenreduktion
Fehlerreduktion
Pasimonität ("Sparsamkeit")
Grundidee
ähnliche VARIABLEN werden zusammengefasst
Annahme, dass Korrelation zwischen Variablen von einem gemeinsamen Faktor hervorgerufen wird
oft FA Ausgangspunkt für bspw. Regression, ANOVA, Clusteranalyse
Transformation korrelierter Variablen / Itmes in wenige latente Variablen / Faktoren
Klassifizierung von Variablen, die das gleiche messen
-> "Faktoren"
keine Vorannahmen => exploratives Vorgehen
Entdeckung von Zusammenhängen / "Mustern" in Daten
struktur-prüfende Verfahren
Beispiele
Regressionsanalyse
Regressionsgerade
Standardisierung
Vergleichbarkeit
Steigung = Korrelation
Bestpassendste Gerade
es gibt nur genau eine(!) bestpassendste Gerade
"kleinste Quadrate Regressionsgerade"
große Fehler "härter bestraft"
Vorzeichen heben sich nicht gegenseitig auf
Prädiktionsfehler möglichst gering
am nächsten an Datenpunkten
Grundgleichung
Y = b0 + b1*X
b1 : Slope
= rXY*sY/sX
b0 : Intercept
= mY - b1*mX
Y : vorhergesagter Wert
Testen des zugrunde liegenden Modells für Beziehung zwischen Variablen
Y-Werte vorhersagen
Beschreibung linearer Beziehung in den Daten
Korrelation
Grund für Korrelation
Mediator
4 Fälle
4. UV und M kont. -> Interaktionsterm
3. M kont., UV kat. -> Interaktionsterm
2. M kategorial, UV kontinuierlich -> Regressionen in Gruppen, Unterschiede im Regressionsgewicht testen
1. UV und M kategorial --> 2x2 ANOVA
Annahmen
Wenn doch Messfehler in Messung des Mediators
Überschätzung UV - AV
Unterschätzen des Effekts M - AV
AV verursacht nicht UV
Mediator ohne Messfehler gemessen
signifikante Regressionsanalysen
4. UV + M - AV (M signifikant, UV nicht mehr/reduziert)
3. M - AV
2. UV - M
1. UV - AV
Bedingungen
3. Wenn 1. und 2. kontrolliert, ist UV - AV = 0
2. M - AV
1. UV - M
Def. -> Karteikarte
Alternative Interpretation von Korrelation
Spurious relationship (Scheinkorrelation)
Reciprocal causation
Reverse causation
Interpretation von Korrelationstabellen
4. kleiner, mittlerer oder großer Effekt?
3. Größe des Zusammenhangs?
2. Richtung des Zusammenhangs?
1. Korrelation signifikant unterschiedlich von 0?
Outliers
off-line outlier
-> Verringerung r
on-line outlier
-> Vergrößerung r
Korrelationskoeffizient
Interval x Interval -> Pearson Korrelations
Ordinal x Ordinal -> Spearman-Rang
Nominal x Interval -> Punkt biserial
Nominal x Ordinal -> Rang biserial
Nominal x Nominal -> Phi
Größe
.50
-> großer Effekt
.30
-> mittlerer Effekt
.10
-> kleiner Effekt
.00
-> kein Zusammenhang
Vorzeichen
negativ
positiv
perfekte Korrelation
Scatter plot
Varianzanalyse
Terminologie
Klassifikationsfaktor
Resultiert Effekt, dann entweder wegen ZUO oder auf andere damit verbundene Merkmale
ZUO Probanden -> Gruppe aufgrund Personenmerkmale (=Quasiexperiment)
Treatmentfaktor
Resultiert Effekt, ist dieser auf Manipulation
ZUO Probanden -> Gruppe zufällig (=Experiment)
Haupteffekt
liegt zw. Stufen eines Faktors ein signifikantes Ergebnis vor
Stufen eines Faktors
# realisierter Bedingungen
einfaktorielle Varianzanalyse
falls nur experimentelle Manipulation
Faktor
UV
Verfahren, welches den Vergleich mehrerer Mittelwerte erlaubt
ANOVA
keine gerichteten Hypothesen, dies nur mit einem Post-Hoc-Test möglich
mehrstufiger Faktor, intervallskalierte AV
F-Bruch
auf Signifikanz prüfen
>1
=> es gibt einen systematischen Einfluss des Experiments
=1
=> es gibt keinen systematischen Einfluss des Experiments
Varianz innerhalb
--------------------
Varianz zwischen
Anteil der systematischen / unsystematischen Varianz
Zerlegung der Gesamtvarianz
"Varianz zwischen" = unsyst + syst
unsystematische Einflüsse durch Störterme (Residualvarianz)
Schätzung durch "Varianz innerhalb"
systematische Einflüsse durch Manipulation
Effektvarianz durch Manipulation
testet die unspezifische Alternativhypothese (= die allgemeine Behauptung, dass sich mindestens zwei Gruppen unterscheiden)
mehrere t-Tests klappen jedoch nicht!
Hypothesen liegen bereits vor
Überprüfung Zusammenhänge zwischen Variablen
unspezifisch vs. spezifisch
ungerichtet vs. gerichtet
Zusammenhangshypothesen
Unterschiedshypothesen
Signifikanztest
Effektstärke
Ausmaß der Wirkung eines experimentellen Faktors d
d = 0.8 => Großer Effekt
d = 0.5 => Mittlerer Effekt
d = 0.2 => kleiner Effekt
Ist die emp. ermittlete Differenz zwischen zwei Mittelwerten Zufall oder systematisch?
4. falls Wahrscheinlichkeit < 0.05 (Signifikanzniveau)
3. t-Wert -> Wahrscheinlichkeit
2. emp. ermitteltee Mittelwertsdifferenz -> standardisierten t-Wert
1. nach H0 wäre die zu erwartende Differenz Null
t-Test
Nullhypothese vs. Alternativhypothese
2x2 Matrix mit allen Möglichkeiten (H0, H1)
Beta-Fehler
Größe abhängig von
angenommener Effekt
Stichprobengröße
festgelegtes Signifikanzniveau
Teststärke
Alpha-Fehler
Voraussetzungen
Varianzhomogenität
untersuchte Merkmal normalverteilt
untersuchte Merkmal intervallskaliert
H0 = Es gibt keinen Unterschied (?)
untersucht, ob sich Mittelwerte zweier Gruppen systematisch unterscheiden
Beobachtungen der Deskriptiven Statistik generalisieren
Wesentliche Informationen präsentieren (Graphen, Tabellen)
Merkmale einer guten Grafik
"keep things balanced"
Elemente klar und deutlich benennen
möglichst wenig Text
Maßstab und Verhältnis 3:4 beachten
"weniger ist mehr"
Sparsamkeit
nur 1 zentrale Idee
vorher planen
Erste Transformation
Berechnen des gemeinsamen Mittelwertes vieler Items
Überprüfung der Messqualität
Ausreißer
Reliabilität
Chronbachs Alpha
> 0.7 !
Maß für interne Konsistenz
Def. Karteikarte
Kurtosis
spitzer als normal
-> leptokurtisch
normal
-> mesokurtisch
flacher als normal
-> platykurtisch
Schiefe
Mittelwert < Median
-> linksschief ("negatively skewed")
Mittelwert > Median
-> rechtsschief ("positively skewed")
Überprüfung der Datenqualität
fehlende Daten
Kodierung mit bspw. -99
Histogramme
Beschreibung der Charakteristika der Stichprobe
Maße der Variabilität
Varianz
schwer interpretierbar
wird benötigt für weitere Analysen
Standardabweichung / Streuung
leichter zu interpretieren als Varianz
Vergleich von Verteilungen
Variationsbreite ("Range")
für allgemeine Einschätzung aller Daten
Maße der zentralen Tendenz
Modalwert / Modus
nominalskalierte Daten
Median
für intervallskalierte Daten mit Ausreißern
Mittelwert
für intervallskalierte Daten ohne extreme Werte
Dateneingabe
Kodierung
Mapping Antwortmöglichkeiten -> Zahlen
Basis für jede Art von quantitativer Datenanalyse
Übersicht über Stichprobe & Messgrößen
Daten beschreiben
Asysmmetrische Dominanzeffekt
somit lassen sich Entscheidungen steuern
Entscheidung dann gewählt, wenn in allen Punkten überlegen
Bewertung von Alternativen relativ zu verfügbaren Alternativen
Komplexität der Versuchsanordnung
komplex
Anzahl der AV
multivariat
univariat
Anzahl der UV
Mehrfaktoriell
Einfaktoriell
Messwiederholung
within
jede VPn wird mehrfach getestet
between
jede Person wieder in genau einer Gruppe getestet
simpel
1 UV mit 2(+) Bedingung
Quasiexperiment
Feldexperimente
natürliches Setting
-> schwer durchführbar
-> hohe externe Validität
-> niedrige interne Validität
UV wird manipuliert
keine Randomisierung möglich
Experimente
Laborexperimente
alle Variablen weitestgehend kontrolliert
-> niedrige externe Validität
Generalisierbarkeit
-> hohe interne Validität
Störvariablen ausgeschaltet
MAX-KON-MIN-Regel
unsystematische Variablen minimieren
Störvariablen kontrollieren
Wirkung UV -> AV maximieren
Beziehungsart: kausal
Zu prüfende Hypothese besitzt Vermutung über Beziehung von min 2 Variablen
Annahme: Gesetzmäßige Abhängigkeitsbeziehung
Künstlicher Eingriff in das Geschehen & systematische Veränderung der UV's
Systematische Beobachtung der Auswirkung
Kontrolle von
Moderator
Störvariablen
h
Matching
Störvariablen bei jeder VP messen und auf "gleiche" Gruppen aufteilen
Voraussetzung: Störvariable bekannt und messbar
Randomisierung
Stichprobe in zwei Gruppen unterl
keine Voraussetzung
Variablen der Untersuchungssituation
Variablen der Versuchsperson
Beobachtung AV
Variation/Manipulation der UV
Wenn Hypothese vorhanden
Untersuchung von Ursache und Wirkung
Endogenitätsproblem
Kunden DBs
Voraussetzung für erfolgreiches CRM
idealerweise möglichst vollständige Kundeninof
werden als Infoquelle zunehmend wichtiger
Sekundärdaten
Marketing oder Forschungsinteressen meist nicht neu oder einzigartig
Sekundärdatenbanken
Daten nicht voll zugänglich
--> eingeschränkte Analysemöglichkeiten
hohes Aggregationsniveau
keine eigenen Fragen möglich
Erhebungsprozess außerhalb eigener Kontroller
oftmals einzige Option
Durchführung durch bekannte Institute
echte Längsschnittdaten
Preisgünstiger
große Stichproben
schnelle Verfügbarkeit
Daten aus Sekundärdatenbanken werden in Panelform erhoben
Marketingrelevante Datenregelmäßig erhoben
Kommerzielle Anbieter haben Stichprobenzugang
primär vs sekundär
intern vs extern
Definition: siehe Karteikarte
Befragungen
Fragenbogen
systematische Fehler
Befragte
Antwortverzerrungen
Selbstselektions-Bias
verweigern Auskünfte
nicht erreicht
Messung und Design
Design Befragungsinstrument verwirrend
Konstrukte falsch definiert und gemessen
Administrative
Fehler Interpretation der Daten
Stichprobenzusammensetzung
Fehler Datenbereinigung
Fehler Interviewer
Wie erhöht man die Antwortrate
kurze Dauer & ansprechend gestaltet
Incentivierung
Anonymität und Vertraulichkeit zusichern
Erklären, warum die Befragung wichtig ist
mehrere Kontakte & Kontaktwege
Ungewissheit über den Wahrheitsgehalt
keine oder kaum Kontrolle über Antwortzeiten
Entwicklung reliabler und valider Messinstrumente
Statistische Analysen und Gruppenvergleiche möglich
Untersuchen verschiedener Konstrukte
standardisiertes Format
-> relative einfache Erhebungsart
relativ große Stichprobe
-> bessere Verallgemeinbarkeit
Internetbefragung
E-Mailbefragung
Faxbefragung
Drop-Off-Survey
Brief/Onlinepanelbefragung
persönliches Interview
Nachteile
keine zahlenmäßigen Mengenangaben ableitbar
Auswertung ist schwer
hohe Anforderungen des Interviewers
sehr zeitaufwendig und kostenintensiv
Vorteile
Möglichkeit, neue unbekannte Sachverhalte zu entdecken
eher wahre und vollständige Infos über soubjektive Sicht
Fokussierung auf für den Teilnehmer relevante Sachverhalte
Arten
telephone (computer assist)
mall-intercept
purchase-intercept
inhome/office
--> zuhause
stark strukturiert vs. situationsorientiert
mündlich vs. schriftlich
Beobachtungen
Panels
Häufige Vertreter
Konsumentenpanels (Konsumentenverhalten, alltägliche Güter)
Retailpanels
Haushaltspanels
Probleme
Paneleffekte
Selektionseffekte
Panelmortalität
Definition:
Untertopic
Quantitative Forschung
standardisiert, strukturiert
Informationsgewinn durch Datenreduktion
Verhalten beschreiben, keine Aussagen über Ürsache & Wirkung
"Messen"
Große Stichprobe
Messen festgelegter Inhalte
Frühzeitige Hypothesenbildung (ex ante)
Wofür?
Vorhersagen treffen
Abschätzen, wie viele Personen einer bestimmte Population ein gewissen Verhalten zeigen
Charakteristika bestimmter Gruppen beschreiben
Wann?
Nach Aufstellen von Hypothesen
Beschreibung von Zusammenhängen
Langschnitt (longitudinal)
Feststehende Stichprobe wird wiederholt befragt
vs
Querschnitt (cross-sectional)
Datensammlung anhand einer Stichprobe zu einem einzigen Zeitpunkt
Multi
mehrere Stichproben, jede wird nur einmal befragt
Single
eine Stichprobe, einmalige Datensammlung
Methoden
qualitative Forschung
Merkmale
Verhalten "verstehen" & "interpretieren"
Explikative Datenanalyse (Anreicherung, Interpretation)
Kleinere, "typische", gezielte Stichprobe
Orientierung an Gegenstand
Suche nach relevanten Inhalten
Hypthose suchend
Interpretierende Auswertung
Analyse verbaler Daten
geringe Standardisierung
Ziel: Verhalten verstehen
Datenauswertung
6. Ergebnisbericht
5. Kodierung
4. Kategoriensystem
3. Fallbeschreibung
2. Datenmanagement
1. Text-/Quellenkritik
Gütekriterien
Validität
Realibilität
Objektivität
indirekt
Projektive Techniken
Expressiv
Verständigung
Assoziationen
Satzvollverständigung
Wortassozationstest
Implicit Association Test (IAT)
Durchführung
Versuchspersonen müssen mittels Tastendruck Reize kategorisieren
Zugang zu implizierten Einstellungen über die zugrundeliegenden automatischen Prozesse
Messung "implizierter" Einstellungen
Dritte Person Technik
Thematischer Apperzeptionstest (TAT)
Deutung eines nicht eindeutigen Bildes
Beobachtungsverfahren
Oft hoher Aufwand
Erfasst Objektivität und Realiablilität
oft anwendbar
Ältestes Verfahren
Dimensionen
direkt vs indirekt
offen vs verdeckt
Geeignet, wenn
Ereignis beobachtbar
Häufiges Auftreten
kein langer Zeitraum notwendig
ethisch vertretbar
direkt
Fokusgruppen
Leitfaden für Moderator
offene Fragen
Verlauf vorbereiten
Thinkback-Fragen
Keine Warum-Fragen
Keine JA/Nein-Fragen
Ziele
Evaluation von Programmen
Hypothesen generieren
Hintergrundinfos sammeln
Probleme entdecken
Charakteristika
möglichst entpannt, gechillt
Zeit 1-3 Stunden
Gruppen so "homogen wie möglich, so heterogen wie nötig"
Gruppengröße 8-12
Contra
Auswertung schwierig
geschultes Personal
Pro
Gruppendynamik -> neue Erkenntnisse
kritische Infos für Entwicklung von Hypothesen
Detaillierte Informationen
Interview
Leitfadeninterview
contra
Ausgebildete Interviewer notwendig
Auswertung schwer
zeitaufwendig
Interviewer-Bias
pro
Bei Analphabeten
Nuancierte Anworten als Fragebogen
Möglichkeit, direkt nachzufragen
unerwartete Einsichten und Ideen
Subtopic
Pilotstudie
Expertenbefragungen
Wann
Anfang
Ziel
neue Ideen und Einsichten