Categories: All

by Lazy Nightcover 5 years ago

195

Chuỗi thời gian

Tidsserier är en viktig del av dataanalys, särskilt när man arbetar med kontinuerligt inkommande data som strömmar in över tid. En av de centrala utmaningarna inom detta område är att hantera och analysera stora och heterogena datamängder, vilket ofta kräver tekniker för dimensionsreduktion och klustring.

Chuỗi thời gian

Chuỗi thời gian

Bài toán khai phá dữ liệu

Khó khăn
phụ thuộc người dùng
dự liệu không đồng nhất
dự liệu lớn (vd: ECG)
Bài toán
dự báo (forecast)

PP

dựa vào hướng tiếp cận so trùng mẫu

No ron nhân tạo

Không thể xử lý một cách hữu hiệu dữ liệu có xu hƣớng hay biến đổi theo mùa nếu dữ liệu này không trải qua giai đoạn tiền xử lý để khử mùa và xu hƣớng

ARIMA

làm trơn theo hàm mũ

nắm bắt nđược đăc trưng

trực quan hóa (visualization),
phát hiện bất thường (anomaly detection)
khai phá luật (rule discovery)
phát hiện motif (motif discovery),

tiền xử lý khai phá dữ liệu cấp cao: gom cụm chuỗi thời gian, phân lớp

nhạn dạng chữ ký, hình ảnh lặp, báo chứng khoán

chuỗi thời gian xuất hiện nhiều nhất

phân lớp (classification),
gom cụm (clustering)

thường là tiền xử lý của bài toán phân lớp, tiên đoán, ra quyết định,...

tổng quát thông tin từ dự liệu lớn --> thông tin hữu ích

xem xét sự phân bố dữ liệu trong tập dữ liệu lớn

học không giám sát

tìm kiếm tương tự (similarity search), cơ bản
Time series
từng khoảng thời gian liền nhau theo một tần suất thời gian thống nhất.
streaming time series
dựa vào giá trị cuối
chuỗi thời gian trong đó các giá trị mới tới một cách liên tục và đƣợc nối vào cuối chuỗi C theo thứ tự thời gian.

Hướng tiếp cận

2. thực hiện trong không gian đăc trưng ( feature space)
1. giảm số chiều
bài toán motif xấp xỉ
BÀi toán gom cụm

I-k-Means

k-Means

Mục tiêu đối tượng phạm vi

Giải thuật khai phá
kết quả đúng
độ phức tạp tính toán thấp

Kết quả

kỹ thuật giảm số chiều dựa trên pp điểm giữa kết hợp với kỹ thuật xén (MP_C)