Chuỗi thời gian
Bài toán khai phá dữ liệu
Khó khăn
phụ thuộc người dùng
dự liệu không đồng nhất
dự liệu lớn (vd: ECG)
Bài toán
dự báo (forecast)
PP
dựa vào hướng tiếp cận so trùng mẫu
No ron nhân tạo
Không thể xử lý một cách hữu hiệu dữ liệu có xu hƣớng hay biến đổi theo mùa nếu dữ liệu này không trải qua giai đoạn tiền xử lý để khử mùa và xu hƣớng
ARIMA
làm trơn theo hàm mũ
nắm bắt nđược đăc trưng
trực quan hóa (visualization),
phát hiện bất thường (anomaly detection)
khai phá luật (rule discovery)
phát hiện motif (motif discovery),
tiền xử lý khai phá dữ liệu cấp cao: gom cụm chuỗi thời gian, phân lớp
nhạn dạng chữ ký, hình ảnh lặp, báo chứng khoán
chuỗi thời gian xuất hiện nhiều nhất
phân lớp (classification),
gom cụm (clustering)
thường là tiền xử lý của bài toán phân lớp, tiên đoán, ra quyết định,...
tổng quát thông tin từ dự liệu lớn --> thông tin hữu ích
xem xét sự phân bố dữ liệu trong tập dữ liệu lớn
học không giám sát
tìm kiếm tương tự (similarity search), cơ bản
Time series
từng khoảng thời gian liền nhau theo một tần suất thời gian thống nhất.
streaming time series
dựa vào giá trị cuối
chuỗi thời gian trong đó các giá trị mới tới một cách liên tục và đƣợc nối vào cuối chuỗi C theo thứ tự thời gian.
Hướng tiếp cận
2. thực hiện trong không gian đăc trưng ( feature space)
1. giảm số chiều
bài toán motif xấp xỉ
BÀi toán gom cụm
I-k-Means
k-Means
Mục tiêu đối tượng phạm vi
Giải thuật khai phá
kết quả đúng
độ phức tạp tính toán thấp
Kết quả
kỹ thuật giảm số chiều dựa trên pp điểm giữa kết hợp với kỹ thuật xén (MP_C)