Bài tập về khai phá luật kết hợp năm 2024

“98% khách hàng mà mua tạp chí thể thao thì đều mua các tạp chí về ôtô”  sự kết hợp giữa “tạp chí thể thao” với “tạp chí về ôtô” “60% khách hàng mà mua bia tại siêu thị thì đều mua bỉm trẻ em”  sự kết hợp giữa “bia” với “bỉm trẻ em” “Có tới 70% người truy nhập Web vào địa chỉ Url 1 thì cũng vào địa chỉ Url 2 trong một phiên truy nhập web”  sự kết hợp giữa “Url 1” với “Url 2”. Khai phá dữ liệu sử dụng Web (Dữ liệu từ file log của các site, chẳng hạn được MS cung cấp). Các Url có gắn với nhãn “lớp” là các đặc trưng thì có luật kết hợp liên quan giữa các lớp Url này. April 22, 2017

4 Khái niệm cơ sở: Tập phổ biến và luật kết hợp [IV06] Renáta Iváncsy, István Vajk (2006). Frequent Pattern Mining in Web Log Data, Acta Polytechnica Hungarica, 3(1):77-90, 2006 April 22, 2017

5 Khái niệm cơ sở: Tập phổ biến và luật kết hợp Cơ sở dữ liệu giao dịch (transaction database) Giao dịch: danh sách các mặt hàng (mục: item) trong một phiếu mua hàng của khách hàng. Giao dịch T là một tập mục. Tập toàn bộ các mục I = {i1, i2, …, ik} “tất cả các mặt hàng”. Một giao dịch T là một tập con của I: T  I. Mỗi giao dịch T có một định danh là TID. A là một tập mục A  I và T là một giao dịch: Gọi T chứa A nếu A  T. Độ hỗ trợ của A (s(A)) là xác suất xuất hiện A trong D: s(A)=|TD, T  A} minsup>0 (độ hỗ trợ tối thiểu), A là “phổ biến” ((frequent)): s(A)  minsup Luật kết hợp Gọi A  B là một “luật kết hợp” nếu A  I, B  I và AB=. Luật kết hợp AB có độ hỗ trợ (support): s (AB) = s(AB), AB là phổ biến nếu AB phổ biến. Luật kết hợp A  B có độ tin cậy (confidence) c trong CSDL D nếu trong D có c% các giao dịch T  A  TB: xác suất P(B|A). Support (A  B) = P(AB) : 1  s (A  B)  0 Confidence (A  B) = P(B|A) : 1  c (A  B)  0 Luật A  B được gọi là đảm bảo độ hỗ trợ s trong D nếu s(A  B)  s. Luật AB được gọi là đảm bảo độ tin cậy c trong D nếu c(A  B)  c. Tập mạnh. April 22, 2017

6 Khái niệm cơ bản: Mẫu phổ biến và luật kết hợp Tập mục I={i1, …, ik}. CSDL giao dịch D = {d  I} A, B  I, AB=: A B là luật kết hợp Bài toán tìm luật kết hợp. Cho trước độ hỗ trợ tối thiểu s>0, độ tin cậy tối thiếu c>0. Hãy tìm mọi luật kết hợp mạnh XY. Transaction-id Items bought 10 A, B, C 20 A, C 30 A, D 40 B, E, F Giả sử min_support = 50%, min_conf = 50%: A  C (50%, 66.7%) C  A (50%, 100%) Customer buys diaper buys both buys beer Hãy trình bày các nhận xét về khái niệm luật kết hợp với khái niệm phụ thuộc hàm. Các tính chất Armstrong ở đây. April 22, 2017

7 Một ví dụ tìm luật kết hợp Min. support 50% Min. confidence 50% Transaction-id Items bought 10 A, B, C 20 A, C 30 A, D 40 B, E, F Frequent pattern Support {A} 75% {B} 50% {C} {A, C} For rule A  C: support = support({A}{C}) = 50% confidence = support({A}{C})/support({A}) = 66.6% April 22, 2017

8 Khai niệm khai phá kết hợp April 22, 2017

9 Khái niệm khai phá luật kết hợp Tìm tất cả mẫu phổ biến, kết hợp, tương quan, hoặc cấu trú nhan-quả trong tập các mục hoặc đối tượng trong CSDL quan hệ hoặc các kho chứa thông tin khác. Mẫu phổ biến (Frequent pattern): là mẫu (tập mục, dãy mục…) mà xuất hiện phổ biến trong 1 CSDL [AIS93] Động lực: tìm mẫu chính quy (regularities pattern) trong DL Các mặt hàng nào được mua cùng nhau? — Bia và bỉm (diapers)?! Mặt hàng nào sẽ được mua sau khi mua một PC ? Kiểu DNA nào nhạy cảm với thuộc mới này? Có khả năng tự động phân lớp Web hay không ? April 22, 2017

10 Mẫu phổ biến và khai phá luật kết hợp là một bài toán bản chất của khai phá DL Nền tảng của nhiều bài toán KPDL bản chất Kết hợp, tương quan, nhân quả Mẫu tuần tự, kết hợp thời gian hoặc vòng, chu kỳ bộ phận, kết hợp không gian và đa phương tiện Phân lớp kết hợp, phân tích cụm, khối tảng băng, tích tụ (nén dữ liệu ngữ nghĩa) Ứng dụng rộng rãi Phân tích DL bóng rổ, tiếp thị chéo (cross-marketing), thiết kế catalog, phân tích chiến dịch bán hàng Phân tích Web log (click stream), Phân tích chuỗi DNA v.v. April 22, 2017

11 Chương 4: Khai phá luật kết hợp Khai phá luật kết hợp (Association rule) Các thuật toán khai phá vô hướng luật kết hợp (giá trị lôgic đơn chiều) trong CSDL giao dịch Khai phá kiểu đa dạng luật kết hợp/tương quan Khai phá kết hợp dựa theo ràng buộc Khai phá mẫu dãy April 22, 2017

12 Apriori: Một tiếp cận sinh ứng viên và kiểm tra Khái quát: Khai phá luật kết hợp gồm hai bước: Tìm mọi tập mục phổ biến: theo min-sup Sinh luật mạnh từ tập mục phổ biến Mọi tập con của tập mục phổ biến cũng là tập mục phổ biến Nếu {bia, bỉm, hạnh nhân} là phổ biến thì {bia, bỉm} cũng vậy: Mọi giao dịch chứa {bia, bỉm, hạnh nhân} cũng chứa {bia, bỉm}. Nguyên lý tỉa Apriori: Với mọi tập mục không phổ biến thì mọi tập bao không cần phải sinh ra/kiểm tra! Phương pháp: Sinh các tập mục ứng viên dài (k+1) từ các tập mục phổ biến có độ dài k (Độ dài tập mục là số phần tử của nó), Kiểm tra các tập ứng viên theo CSDL Các nghiên cứu hiệu năng chứng tỏ tính hiệu quả và khả năng mở rộng của thuật toán Agrawal & Srikant 1994, Mannila, và cộng sự 1994 April 22, 2017

13 Thuật toán Apriori Trên cơ sở tính chất (nguyên lý tỉa) Apriori, thuật toán hoạt động theo quy tắc quy hoạch động Từ các tập Fi = {ci| ci tập phổ biến, |ci| = i} gồm mọi tập mục phổ biến có độ dài i với 1  i  k, đi tìm tập Fk+1 gồm mọi tập mục phổ biến có độ dài k+1. Trong thuật toán, các tên mục i1, i2, … in (n = |I|) được sắp xếp theo một thứ tự cố định (thường được đánh chỉ số 1, 2, ..., n). April 22, 2017

14 Thuật toán Apriori April 22, 2017

15 Thuật toán Apriori: Thủ tục con Apriori-gen Trong mỗi bước k, thuật toán Apriori đều phải duyệt CSDL D. Khởi động, duyệt D để có được F1. Các bước k sau đó, duyệt D để tính số lượng giao dịch t thoả từng ứng viên c của Ck+1: mỗi giao dịch t chỉ xem xét một lần cho mọi ứng viên c thuộc Ck+1. Thủ tục con Apriori-gen sinh tập phổ biến: tư tưởng April 22, 2017

16 Thủ tục con Apriori-gen April 22, 2017

17 Một ví dụ thuật toán Apriori (s=0.5) Itemset sup {A} 2 {B} 3 {C} {D} 1 {E} Database TDB Itemset sup {A} 2 {B} 3 {C} {E} L1 C1 Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E 1st scan C2 Itemset sup {A, B} 1 {A, C} 2 {A, E} {B, C} {B, E} 3 {C, E} C2 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} L2 2nd scan Itemset sup {A, C} 2 {B, C} {B, E} 3 {C, E} C3 L3 Itemset {B, C, E} 3rd scan Itemset sup {B, C, E} 2 April 22, 2017

18 Chi tiết quan trọng của Apriori Cách thức sinh các ứng viên: Bước 1: Tự kết nối Lk Step 2: Cắt tỉa Cách thức đếm hỗ trợ cho mỗi ứng viên. Ví dụ thủ tục con sinh ứng viên L3={abc, abd, acd, ace, bcd} Tự kết nối: L3*L3 abcd từ abc và abd acde từ acd và ace Tỉa: acde là bỏ đi vì ade không thuộc L3 C4={abcd} April 22, 2017

19 Ví dụ: D, min_sup*|D| = 2 (C4 = ) April 22, 2017

20 Sinh luật kết hợp Việc sinh luật kết hợp gồm hai bước Với mỗi tập phổ biến W tìm được hãy sinh ra mọi tập con thực sự X khác rỗng của nó. Với mỗi tập phố biến W và tập con X khác rỗng thực sự của nó: sinh luật X  (W – X) nếu P(W-X|X)  c. Như ví dụ đã nêu có L3 = {{I1, I2, I3}, {I1, I2, I5}} Với độ tin cậy tối thiểu 70%, xét tập mục phổ biến {I1, I2, I5} có 3 luật như dưới đây: April 22, 2017

21 Cách thức tính độ hỗ trợ của ứng viên Tính độ hỗ trợ ứng viên: vấn đề cần quan tâm Số lượng ứng viên là rất lớn Một giao dịch chứa nhiều ứng viên Phương pháp: Tập mục ứng viên được chứa trong một cây-băm (hash-tree) Lá của cây băm chứa một danh sách các tập mục và bộ đếm Nút trong chứa bảng băm Hàm tập con: tìm ứng viên trong tập ứng viên April 22, 2017

22 Tính độ hỗ trợ của ứng viên Tập các ứng viên Ck được lưu trữ trong một cây-băm. Gốc của cây băm ở độ sâu 1. Lá chứa một danh sách tập mục thuộc Ck. Nút trong chứa một bảng băm (chắng hạn mod N): mỗi ô trỏ tới một nút khác (Nút ở độ sâu d trỏ tới các nút ở độ sâu d+1). Khi khởi tạo: gôc là nút lá với danh sách rỗng. Xây dựng cây băm - thêm một tập mục c: bắt đầu từ gốc đi xuống theo cây cho đến khi gặp một lá. Tại một nút trong độ sâu d: quyết định theo nhánh nào: áp dụng hàm băm tới mục thứ d của tập mục này. Khi số lượng tập mục tại một lá vượt quá ngưỡng quy định, lá được chuyển thành một nút trong và phân chia danh sách các tập mục như hàm băm. Tính độ hỗ trợ: tìm tất cả các ứng viên thuộc giao dịch t: Nếu ở nút gốc: băm vào mỗi mục trong t. Nếu ở một lá: tìm các tập mục ở lá này thuộc t và bổ sung chỉ dẫn các tập mục này tới tập trả lời. Nếu ở nút trong và đã đạt được nó bằng cách băm mục i, trên từng mục đứng sau i trong t và áp dụng đệ quy thủ tục này sang nút trong thùng tương ứng. April 22, 2017

23 Ví dụ: Tính hỗ trợ các ứng viên 1,4,7 2,5,8 3,6,9 Hàm tập con Có các tập ứng viên độ dài 3 là 124, 125, 136, 145, 159, 234, 345, 356, 357, 367, 368, 457, 458, 567, 689 Thêm 145 vượt qua ngưỡng, đưa 4 tập này sang nút con trái. Vì 4 tập này đều vượt qua ngưỡng nên tách thành 145; 124, 125; 136 124 125 136 1, 4, 7 đi sang trái; 2, 5, 8 dừng ở giữa; 3, 6, 9 đi sang phải Thêm 159 bổ sung vào nút giữa cây con trái 2 3 4 5 6 7 1 4 5 1 3 6 1 2 4 4 5 7 1 2 5 4 5 8 1 5 9 3 4 5 3 5 6 3 5 7 6 8 9 3 6 7 3 6 8 Thêm 234 bổ sung vào nút giữa cây mẹ Thêm 345 bổ sung vào nút phải cây mẹ; sau đó tách cây con phải 345; 356, 357; 367, 368 April 22, 2017

24 Ví dụ: Tính hỗ trợ các ứng viên 1,4,7 2,5,8 3,6,9 Hàm tập con Giao dịch t= 1, 4, 7 đi sang trái; 2, 5, 8 dừng ở giữa; 3, 6, 9 đi sang phải 2 3 4 5 6 7 1 4 5 1 3 6 1 2 4 4 5 7 1 2 5 4 5 8 1 5 9 3 4 5 3 5 6 3 5 7 6 8 9 3 6 7 3 6 8 12356 sang trái; 2356 ở giữa; 356 sang phải Trái: trái; 2356 ở giữa; 356 sang phải; … bộ đếm của 125, 136, 356 được tăng April 22, 2017

25 Thi hành hiệu quả thuật toán Apriori trong SQL Khó có thể có một hiệu quả tốt nếu chỉ tiếp cận thuần SQL (SQL-92) Sử dụng các mở rộng quan hệ - đối tượng như UDFs, BLOBs, hàm bảng v.v. Nhận được các thứ tự tăng quan trọng Xem bài: S. Sarawagi, S. Thomas, and R. Agrawal. Integrating association rule mining with relational database systems: Alternatives and implications. In SIGMOD’98 April 22, 2017

26 Thách thức khai phá mẫu phổ biến Duyệt nhiều lần CSDL giao dịch Lượng các ứng viên rất lớn Tẻ nhạt việc tính toán độ hỗ trợ Cải tiến Apriori: tư tưởng chung Giảm số lần duyệt CSDL giao dịch Rút gọn số lượng các ứng viên Giảm nhẹ tính độ hỗ trợ của các ứng viên April 22, 2017

27 DIC (Đếm tập mục động): Rút số lượng duyệt CSDL Xây dựng dàn tập mục Khi mà A và D được xác định là phổ biến thì việc tính toán cho AD được bắt đầu Khi mọi tập con độ dài 2 của BCD được xác định là phổ biến: việc tính toán cho BCD được bắt đầu. ABCD ABC ABD ACD BCD AB AC BC AD BD CD Transactions 1-itemsets A B C D 2-itemsets Apriori … {} Itemset lattice 1-itemsets S. Brin R. Motwani, J. Ullman, and S. Tsur. Dynamic itemset counting and implication rules for market basket data. In SIGMOD’97 2-items DIC 3-items April 22, 2017

28 Giải pháp Phân hoạch (Partition): Duyệt CSDL chỉ hai lần Mọi tập mục là phổ biến tiềm năng trong CSDL bắt buộc phải phổ biến ít nhất một vùng của DB Scan 1: Phân chia CSDL và tìm các mẫu cục bộ Scan 2: Hợp nhất các mẫu phổ biến tổng thể A. Savasere, E. Omiecinski, and S. Navathe. An efficient algorithm for mining association in large databases. In VLDB’95 April 22, 2017

29 Ví dụ về mẫu phổ biến Chọn một mẫu của CSDL gốc, khai phá mẫu phổ biến nội bộ mẫu khi dùng Apriori Duyệt CSDL một lần để kiểm tra các tập mục phổ biến tìm thấy trong ví dụ, chỉ có bao (borders ) đóng của các mẫu phổ biến được kiểm tra Ví dụ: kiểm tra abcd thay cho ab, ac, …, v.v. Duyệt CSDL một lần nữa để tìm các mẫu phổ biến bị mất (bỏ qua) H. Toivonen. Sampling large databases for association rules. In VLDB’96 April 22, 2017

30 DHP: Rút gọn số lượng các ứng viên Một k-tập mục mà bộ đếm trong lô băm tương ứng dưới ngưỡng thì không thể là tập mục phổ biến Ứng viên: a, b, c, d, e Điểm vào băm: {ab, ad, ae} {bd, be, de} … 1-tập mục phổ biến: a, b, d, e ab không là một ứng viên 2-tập mục nếu tống bộ đếm của {ab, ad, ae} là dưới ngưỡng hỗ trợ J. Park, M. Chen, and P. Yu. An effective hash-based algorithm for mining association rules. In SIGMOD’95 April 22, 2017

31 Eclat/MaxEclat và VIPER: Thăm dò dạng dữ liệu theo chiều ngang Dùng danh sách tid của giáo dịch trong một tập mục Nén danh sách tid Tập mục A: t1, t2, t3, sup(A)=3 Tập mục B: t2, t3, t4, sup(B)=3 Tập mục AB: t2, t3, sup(AB)=2 Thao tác chính: lấy giao của các danh sách tid M. Zaki et al. New algorithms for fast discovery of association rules. In KDD’97 P. Shenoy et al. Turbo-charging vertical mining of large databases. In SIGMOD’00 April 22, 2017

32 Thắt cổ chai của khai phá mẫu phổ biến Duyệt CSDL nhiều là tốn kém KP mẫu dài cần nhiều bước để duyệt và sinh nhiều ứng viên Để tìm các tập mục phổ biến i1i2…i100 # duyệt: 100 # ứng viên: (1001) + (1002) + … + (110000) = = 1.27*1030 ! Thắt cổ chai: sinh ứng viên và kiểm tra Tránh sinh ứng viên? April 22, 2017

33 KP mẫu phổ biến không cần sinh ƯV Dùng các mục phổ biến để tăng độ dài mẫu từ các mẫu ngắn hơn “abc” là một mẫu phổ biến Nhận mọi giao dịch có “abc”: DB|abc (DB đã luôn có abc: “có điều kiện”) “d” là một mục phổ biến trong DB|abc  abcd là một mẫu phổ biến April 22, 2017

34 Xây dựng cây FP từ một CSDL giao dịch TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m, p} {f, c, a, m, p} 200 {a, b, c, f, l, m, o} {f, c, a, b, m} 300 {b, f, h, j, o, w} {f, b} 400 {b, c, k, s, p} {c, b, p} 500 {a, f, c, e, l, p, m, n} {f, c, a, m, p} min_support = 3 Duyệt CSDL một lần, tìm các 1-tập mục phổ biến (mẫu mục đơn). Loại các mục có độ hỗ trợ < minsup. Xếp các mục phổ biến theo thứ tự giảm dần về độ hỗ trợ (bậc): Tạo f-list. Tạo cây FP với gốc nhãn {} Duyệt CSDL lần nữa: Với mỗi giao dịch t: xâu các mục phổ biến theo thứ tự như 2 và biểu diễn dưới dạng [p|P] với p là mục đầu, còn P là xâu mục còn lại; Gọi insert_tree ([p|P]), T) Tìm tập phổ biến trên cây FP {} f:4 c:1 b:1 p:1 c:3 a:3 m:2 p:2 m:1 Header Table Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 F-list=f-c-a-b-m-p April 22, 2017

35 Xây dựng cây FP April 22, 2017

36 Xây dựng cây FP: chèn một xâu vào cây April 22, 2017

37 Lợi ích của cấu trúc FP-tree Tính đầy đủ Duy trì tính đầy đủ thông tin để khai phá mẫu phổ biến Không phá vỡ mẫu dài bới bất kỳ giao dich Tính cô đọng Giảm các thông tin không liên quan: mục không phổ biến bỏ đi Sắp mục theo tần số giảm: xuất hiện càng nhiều thì cành hiệu quả Không lớn hơn so với CSDL thông thường April 22, 2017

38 Tìm tập phổ biến từ cấu trúc FP-tree April 22, 2017

39 Mẫu cực đại (Max-patterns) Mẫu phổ biến {a1, …, a100}  (1001) + (1002) + … + (110000) = = 1.27*1030 frequent sub-patterns! Mẫu cực đại: Mẫu phổ biến mà không là tập con thực sự của mẫu phổ biến khác BCDE, ACD là mẫu cực đại BCD không là mẫu cực đại Tid Items 10 A,B,C,D,E 20 B,C,D,E, 30 A,C,D,F Min_sup=2

40 Tập mục phổ biến cực đại Một tập mục cực đại (Maximal Intemset) là tập mục phổ biến không là tập con thực sự của một tập mục phổ biến khác Maximal Itemsets Infrequent Itemsets Border

41 Tập mục đóng Tập mục đóng là tập mục mà không là tập con thực sự của một tập mục có cùng độ hỗ trợ X đóng: Y  X  s(Y) < s(X)

42 Phân biệt tập mục cực đại với tập mục đóng Transaction Ids Not supported by any transactions

43 Tập mục cực đại với tập phổ biến đóng Closed but not maximal Minimum support = 2 Closed and maximal # Closed = 9 # Maximal = 4

44 Tập mục cực đại với tập mục đóng

45 Tập mục cực đại với tập mục đóng April 22, 2017

46 Tập mục cực đại với tập mục đóng

Bayardo. Efficiently mining long patterns from databases. SIGMOD’98 J. Pei, J. Han & R. Mao. CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets", DMKD'00 Mohammed Javeed Zaki, Ching-Jiu Hsiao: CHARM: An Efficient Algorithm for Closed Itemset Mining. SDM 2002 April 22, 2017

47 Chương 4: Khai phá luật kết hợp Khai phá luật kết hợp (Association rule) Các thuật toán khai phá vô hướng luật kết hợp (giá trị lôgic đơn chiều) trong CSDL giao dịch Khai phá kiểu đa dạng luật kết hợp/tương quan Khai phá kết hợp dựa theo ràng buộc Khai phá mẫu dãy April 22, 2017

48 Luật kết hợp đa mức Các mục có thể phân cấp Đặt hỗ trợ linh hoạt: Mục cấp thấp hơn là kỳ vọng có độ hỗ trợ thấp hơn. CSDL giao dịch có thể được mã hóa theo chiều và mức Thăm dò KP đa mức chia sẻ uniform support Milk [support = 10%] 2% Milk [support = 6%] Skim Milk [support = 4%] Level 1 min_sup = 5% Level 2 min_sup = 3% reduced support April 22, 2017

49 Kết hợp đa chiều buys(X, “milk”)  buys(X, “bread”) Luật đơn chiều (viết theo dạng quan hệ (đối tượng, giá trị)): buys(X, “milk”)  buys(X, “bread”) Luật đa chiều:  2 chiều / thuộc tính Luật kết hợp liên chiều (không có thuộc tính lặp) age(X,”19-25”)  occupation(X,“student”)  buys(X,“coke”) Luật KH chiều-kết hợp (lai/hybrid) (lặp thuộc tính) age(X,”19-25”)  buys(X, “popcorn”)  buys(X, “coke”) Thuộc tính phân lớp Tìm số lượng các giá trị khả năng không được sắp Thuộc tính định lượng Số, thứ tự ngầm định trong miền giá trị April 22, 2017

50 Kết hợp đa mức: Rút gọn lọc Trong luật phân cấp, một luật có thể dư thừa do đã có quan hệ giữa “tổ tiên” của các mục. Ví dụ milk  wheat bread [support = 8%, confidence = 70%] 2% milk  wheat bread [support = 2%, confidence = 72%] Nói rằng: luật đầu tiên là tổ tiên luật thứ hai. Một luật là dư thừa nếu độ hỗ trợ của nó là khít với giá trị “mong muốn”, dựa theo tổ tiên của luật. April 22, 2017

51 Data Mining: Concepts and Techniques Luật kết hợp định lượng Thuộc tính số là sự rời rạc hóa động d Độ tin cậy hoặc độ cô đọng của luật là cực đại Luật kết hợp định lượng 2-D: Aquan1  Aquan2  Acat Phân cụm các luật kết hợp Liền kề nhau từ các luật Tổng quát dựa trên Lưới 2-D Ví dụ age(X,”30-34”)  income(X,”24K - 48K”)  buys(X,”high resolution TV”) April 22, 2017 Data Mining: Concepts and Techniques

52 Khai phá luật KH dựa theo khoảng cách Phương pháp đóng thùng không nắm bắt được ngữ nghĩa của dữ liệu khoảng Phân vùng dựa trên khoảng cách, rời rạc có ý nghĩa hơn khi xem xét : Mật độ/ số điểm trong một khoảng Tính “gần gũi” của các điểm trong một khoảng April 22, 2017

53 Độ đo hấp dẫn: Tương quan (nâng cao) play basketball  eat cereal [40%, 66.7%] là lạc Phần trăm chung của sinh viên ăn ngũ cốc là 75% cao hơn so với 66.7%. play basketball  not eat cereal [20%, 33.3%] là chính xác hơn, do độ hỗ trợ và tin cậy thấp hơn Độ đo sự kiện phụ thuộc/tương quan: lift (nâng cao) Basketball Not basketball Sum (row) Cereal 2000 1750 3750 Not cereal 1000 250 1250 Sum(col.) 3000 5000 April 22, 2017

54 Chương 4: Khai phá luật kết hợp Khai phá luật kết hợp (Association rule) Các thuật toán khai phá vô hướng luật kết hợp (giá trị lôgic đơn chiều) trong CSDL giao dịch Khai phá kiểu đa dạng luật kết hợp/tương quan Khai phá kết hợp dựa theo ràng buộc Khai phá mẫu dãy April 22, 2017

55 KPDL dựa trên ràng buộc Tìm tất cả các mẫu trong CSDL tự động? — phi hiện thực! Mẫu có thể quá nhiều mà không mục đích! KPDL nên là quá trình tương tác Người dùng trực tiếp xác định KPDL gì khi dùng ngôn ngữ hỏi KPDL (hoặc giao diện đồ họa) KP dựa theo ràng buộc Linh hoạt người dùng: cung cấp ràng buộc trên cái mà KP Tối ưu hệ thống: thăm dò các ràng buộc để hiệu quả KP: KP dựa theo ràng buộc April 22, 2017

56 Ràng buộc trong KPDL classification, association, etc. Ràng buộc kiểu tri thức: classification, association, etc. Ràng buộc dữ liệu — dùng câu hỏi kiếu SQL Tìm các cặp sản phẩn mua cùngnhau trong Vancouver vào Dec.’00 Ràng buộc chiều/cấp Liên quan tới vùng, giá, loại hàng, lớp khách hàng Ràng buộc luật (mẫu) Mua hàng nhỏ (price < $10) nhanh hơn mua hàng lớn (sum > $200) Ràng buộc hấp dẫn Luật mạng: min_support  3%, min_confidence  60% April 22, 2017

57 KP ràng buộc <> tìm kiếm dựa theo ràng buộc KP ràng buộc <> tìm/lập luận dựa theo ràng buộc Cả hai hướng tới rút gọn không gian tìm kiếm Tìm mọi mẫu bảm đảm ràng buộc <> tìm một vài (một_ câu trả lời của tìm dựa theo ràng buộc trong AI (TTNT) Cố tìm theo ràng buộc <> tìm kiếm heuristic Tích hợp hai cái cho một bài toán tìm kiếm thú vị KP ràng buộc <> quá trình hỏi trong hệ CSDL quan hệ Quá trình hỏi trong CSDL quan hệ đòi hỏi tìm tất cả KP mẫu ràng buộc chung một triết lý tương tựng như cố gắng chọn về chiều sâu của câu hỏi April 22, 2017

58 KP mấu phổ biến ràng buộc: vấn đề tố ưu hóa câu hỏi Cho một câu hỏi KP Mấu phổ biến với một tập ràng buộc C, thì thuật toán nên là Mạnh mẽ: chỉ tìm các tập phố biến bảo đảm ràng buộc C đầy đủ: Tìm tất cả tập phổ biến bảo đảm ràng buộc C Giải pháp “thơ ngây/hồn nhiên” (naïve) Tìm tất cát tập PB sau đó kiểm tra ràng buộc Tiếp cận hiệu quả hơn Phân tích tính chất các ràng buộc một cách toàn diện Khai thác chúng sâu sắc có thể nhất trong tính toán mẫu PB. April 22, 2017

59 Không đơn điêu trong KP theo ràng buộc TDB (min_sup=2) Chống đơn điệu (Anti-monotonicity) Một tập mục S vi phạm ràng buộc, mọi tập lớn hơn nó cũng vi phạm sum(S.Price)  v là chống đơn điệu sum(S.Price)  v là không chống đơn điệu Ví dụ. C: range(S.profit)  15 là chống đơn điệu Tập mục ab vi phạm C Cũng vậy mọi tập chưa ab TID Transaction 10 a, b, c, d, f 20 b, c, d, f, g, h 30 a, c, d, e, f 40 c, e, f, g Item Profit a 40 b c -20 d 10 e -30 f 30 g 20 h -10 April 22, 2017

60 Ràng buộc nào là chống đơn điệu v  S No S  V no S  V yes min(S)  v min(S)  v max(S)  v max(S)  v count(S)  v count(S)  v sum(S)  v ( a  S, a  0 ) sum(S)  v ( a  S, a  0 ) range(S)  v range(S)  v avg(S)  v,   { , ,  } convertible support(S)   support(S)   April 22, 2017

61 Tính đơn điệu trong KP luật dựa theo ràng buộc TDB (min_sup=2) Tính đơn điệu Khi một tập mục S thỏa mãn ràng buộc, thì mọi tập lớn hơn của nó cũng thỏa mãn sum(S.Price)  v là đơn điệu min(S.Price)  v là đơn điệu Ví dụ. C: range(S.profit)  15 Tập mục ab đảm bảo C Cũng vậy mọi tập chứa ab TID Transaction 10 a, b, c, d, f 20 b, c, d, f, g, h 30 a, c, d, e, f 40 c, e, f, g Item Profit a 40 b c -20 d 10 e -30 f 30 g 20 h -10 April 22, 2017

62 Ràng buộc đơn điệu Ràng buộc Đơn điệu v  S yes S  V S  V no min(S)  v min(S)  v max(S)  v max(S)  v count(S)  v count(S)  v sum(S)  v ( a  S, a  0 ) sum(S)  v ( a  S, a  0 ) range(S)  v range(S)  v avg(S)  v,   { , ,  } convertible support(S)   support(S)   April 22, 2017

63 Tính cô đọng Tính cô đọng: Cho A1, là tập mục bảo đảm một ràng buộc cô đọng C, thì mọi S bảm đảm C là dựa trên A1 , chằng hạn., S chứa một tập con thuộc A1 Tư tưởng: Bỏ qua xem xét CSDL giao dịch, có chăng một tập mục S bảo đảm ràng buộc C có thể được xác định dựa theo việc chọn các mục min(S.Price)  v là cô đọng sum(S.Price)  v không cô đọng Tối ưu hóa: Nếu C là cô đọng có thể đẩy đếm trước April 22, 2017

64 Ràng buộc cô đọng Ràng buộc Cô đọng v  S yes S  V S  V min(S)  v max(S)  v max(S)  v count(S)  v weakly count(S)  v sum(S)  v ( a  S, a  0 ) no sum(S)  v ( a  S, a  0 ) range(S)  v range(S)  v avg(S)  v,   { , ,  } support(S)   support(S)   April 22, 2017

65 Thuật toán Apriori— Ví dụ Database D L1 C1 Scan D C2 C2 L2 Scan D C3 L3 Scan D April 22, 2017

66 Thuật toán Naïve: Apriori +ràng buộc Database D L1 C1 Scan D C2 C2 L2 Scan D C3 L3 Scan D Constraint: Sum{S.price < 5} April 22, 2017

67 Thuật toán Apriori ràng buộc: Đẩy ràng buộc chống đơn điệu xuống sâu Database D L1 C1 Scan D C2 C2 L2 Scan D C3 L3 Scan D Constraint: Sum{S.price < 5} April 22, 2017

68 Thuật toán Apriori ràng buộc: Đẩy ràng buộc chống đơn điệu xuống sâu Database D L1 C1 Scan D C2 C2 L2 Scan D C3 L3 Scan D Constraint: min{S.price <= 1 } April 22, 2017

69 Chương 4: Khai phá luật kết hợp Khai phá luật kết hợp (Association rule) Các thuật toán khai phá vô hướng luật kết hợp (giá trị lôgic đơn chiều) trong CSDL giao dịch Khai phá kiểu đa dạng luật kết hợp/tương quan Khai phá kết hợp dựa theo ràng buộc Khai phá mẫu dãy April 22, 2017

70 CSDL tuần tự và Phân tích mẫu tuần tự Phần mềm phân tích chuỗi thời gian EidoSearch: Trợ giúp đánh dấu mẫu dữ liệu hấp dẫn và EidoSearch đi tìm mọi mẫu tương tự từ quá khứ và hiện tại, phân tích kết quả tìm kiếm này, và chỉ ra xu hướng gì sẽ xảy ra. Gait-CAD Matlab toolbox: trực quan hóa và phân tích chuỗi thời gian, bao gồm phân lớp, hồi quy, và phân cụm. Giấy phép GNU-GPL. Miningco: chương trình mã nguồn mở tự động tìm ra mẫu và quan hệ trong weblogs và các bộ dữ liệu khác.