Chuỗi thời gian
Kết quả
kỹ thuật giảm số chiều dựa trên pp điểm giữa kết hợp với kỹ thuật xén (MP_C)
Mục tiêu đối tượng phạm vi
Giải thuật khai phá
độ phức tạp tính toán thấp
kết quả đúng
Hướng tiếp cận
1. giảm số chiều
BÀi toán gom cụm
k-Means
I-k-Means
bài toán motif xấp xỉ
2. thực hiện trong không gian đăc trưng ( feature space)
Bài toán khai phá dữ liệu
streaming time series
chuỗi thời gian trong đó các giá trị mới tới một cách liên tục và đƣợc nối vào cuối chuỗi C theo thứ tự thời gian.
dựa vào giá trị cuối
Time series
từng khoảng thời gian liền nhau theo một tần suất thời gian thống nhất.
Bài toán
tìm kiếm tương tự (similarity search), cơ bản
gom cụm (clustering)
học không giám sát
xem xét sự phân bố dữ liệu trong tập dữ liệu lớn
tổng quát thông tin từ dự liệu lớn --> thông tin hữu ích
thường là tiền xử lý của bài toán phân lớp, tiên đoán, ra quyết định,...
phân lớp (classification),
phát hiện motif (motif discovery),
chuỗi thời gian xuất hiện nhiều nhất
nhạn dạng chữ ký, hình ảnh lặp, báo chứng khoán
tiền xử lý khai phá dữ liệu cấp cao: gom cụm chuỗi thời gian, phân lớp
khai phá luật (rule discovery)
phát hiện bất thường (anomaly detection)
trực quan hóa (visualization),
dự báo (forecast)
PP
làm trơn theo hàm mũ
nắm bắt nđược đăc trưng
ARIMA
No ron nhân tạo
Không thể xử lý một cách hữu hiệu dữ liệu có xu hƣớng hay biến đổi theo mùa nếu dữ liệu này không trải qua giai đoạn tiền xử lý để khử mùa và xu hƣớng
dựa vào hướng tiếp cận so trùng mẫu
Khó khăn
dự liệu lớn (vd: ECG)
dự liệu không đồng nhất
phụ thuộc người dùng