Về cơ bản, khai thác dữ liệu là về xử lý tài liệu và nhận biết các mẫu mã và các xu hướng trong thông tin đó để chúng ta cũng có thể quyết định hoặc tiến công giá. Những nguyên tắc khai thác dữ liệu đã được sử dụng nhiều năm rồi, tuy vậy với sự thành lập và hoạt động của big data (dữ liệu lớn), này lại càng phổ cập hơn.

Bạn đang xem: Khai phá dữ liệu

Big data tạo ra một sự bùng phát về thực hiện nhiều kỹ thuật khai phá dữ liệu hơn, một phần vì kích thước thông tin lớn hơn tương đối nhiều và vì thông tin có xu hướng nhiều chủng loại và mở rộng hơn về chính thực chất và nội dung của nó. Với những tập hợp dữ liệu lớn, để nhận thấy số liệu thống kê lại tương đối dễ dàng và thuận tiện trong hệ thống vẫn chưa đủ. Cùng với 30 hoặc 40 triệu bạn dạng ghi thông tin khách hàng chi tiết, việc biết rằng 2 triệu người sử dụng trong số đó sống tại một địa điểm vẫn không đủ. Bạn có nhu cầu biết liệu 2 triệu quý khách đó tất cả thuộc về một đội nhóm tuổi cụ thể không và bạn cũng muốn biết thu nhập trung bình của mình để bạn cũng có thể tập trung vào các yêu cầu của khách hàng của chính mình tốt hơn.

Những yêu cầu hướng marketing này đã thay đổi cách lôi ra và thống kê dữ liệu dễ dàng sang việc khai thác dữ liệu tinh vi hơn. Vụ việc kinh doanh hướng tới việc chăm chú dữ liệu sẽ giúp xây dựng một mô hình để mô tả những thông tin cơ mà cuối cuộc đã dẫn đến việc tạo ra report kết quả. Hình tiếp sau đây phác thảo quá trình này.

*

Quá trình phân tích dữ liệu, khám phá dữ liệu cùng xây dựng mô hình dữ liệu thường xuyên lặp lại khi chúng ta tập trung vào và nhận thấy các thông tin khác biệt để chúng ta có thể trích ra. Các bạn cũng cần hiểu cách tùy chỉnh quan hệ, ánh xạ, phối kết hợp và phân cụm thông tin đó với tài liệu khác để tạo nên kết quả. Thừa trình nhận ra dữ liệu mối cung cấp và những định dạng nguồn, rồi ánh xạ tin tức đó tới hiệu quả đã mang lại của cửa hàng chúng tôi có thể biến hóa sau khi chúng ta phát hiện nay ra những yếu tố và những khía cạnh khác nhau của dữ liệu.

Các công cụ khai thác dữ liệu

Khai phá dữ liệu chưa phải là tất cả về những công cố hay phần mềm cơ sở dữ liệu mà bạn đang sử dụng. Chúng ta cũng có thể thực hiện khai phá dữ liệu bởi các hệ thống cơ sở dữ liệu thông thường và những công cụ đối chọi giản, bao gồm việc sản xuất và viết phần mềm riêng của người sử dụng hoặc sử dụng các gói phần mềm bán bên cạnh cửa hàng. Khai thác dữ liệu tinh vi được hưởng lợi từ kinh nghiệm tay nghề trong thừa khứ và những thuật toán đã có mang với ứng dụng và những gói ứng dụng hiện có, với những công gắng nhất định để thu được một quan hệ hoặc uy tín lớn hơn bằng những kỹ thuật khác nhau.

Gần đây những tập vừa lòng dữ liệu không hề nhỏ và câu hỏi xử lý tài liệu theo các và quy mô lớn gồm thể chất nhận được khai phá tài liệu để sắp xếp và lập báo cáo về những nhóm và các mối đối sánh tương quan của dữ liệu tinh vi hơn. Hiện nay đã có sẵn tương đối nhiều công núm và khối hệ thống hoàn toàn mới, có các hệ thống lưu trữ với xử lý tài liệu kết hợp.Bạn hoàn toàn có thể khai phá dữ liệu với rất nhiều tập hợp tài liệu khác nhau, gồm các cơ sở dữ liệu SQL truyền thống, dữ liệu văn bạn dạng thô, các kho khóa/giá trị và những cơ sở dữ liệu tài liệu. Các cơ sở dữ liệu có phân cụm, như Hadoop, Cassandra, CouchDB với Couchbase Server, tàng trữ và cung ứng quyền truy vấn vào tài liệu theo giải pháp không phù hợp với kết cấu bảng truyền thống.

Đặc biệt, định dạng tàng trữ cơ sở tài liệu tài liệu linh hoạt rộng lại gây nên một trọng tâm và sự tinh vi khác về giải pháp xử lý thông tin. Các cơ sở dữ liệu SQL áp để các cấu trúc chặt chẽ và cứng rắn vào lược đồ, tạo nên việc tầm nã vấn chúng và phân tích dữ liệu trở nên dễ dàng và đơn giản theo quan tiền điểm nắm rõ định dạng và cấu trúc thông tin.

Các cơ sở dữ liệu tài liệu, có một tiêu chuẩn chỉnh chẳng hạn như cấu tạo thực thi JSON hoặc những tệp có cấu trúc đọc được bằng máy tính nào đó, cũng dễ cách xử lý hơn, mặc dù chúng rất có thể làm tạo thêm sự phức hợp do kết cấu khác nhau với hay ráng đổi. Ví dụ, với bài toán xử lý dữ liệu hoàn toàn thô của Hadoop, rất có thể phức tạp để nhận biết và trích ra nội dung trước khi bạn bước đầu xử lý và đối sánh tương quan với nó.

Các chuyên môn chính

Một số chuyên môn cốt lõi, được thực hiện trong khai phá dữ liệu, trình bày kiểu hoạt động khai phá và hoạt động phục hồi dữ liệu. Thật rủi ro là các công ty cùng các chiến thuật khác nhau không phải lúc nào cũng dùng chung các thuật ngữ. Chính những thuật ngữ này hoàn toàn có thể làm tăng lên sự mơ hồ với sự phức tạp.

Hãy xem xét một số trong những kỹ thuật chính và ví dụ về cách sử dụng các công cụ khác biệt để dựng lên việc khai phá dữ liệu.

Sự kết hợp

Sự phối hợp (hay mọt quan hệ) có lẽ rằng là kỹ thuật khai phá dữ liệu được nghe biết nhiều hơn, phần nhiều quen ở trong và đối chọi giản. Ở đây, bạn triển khai một sự tương quan dễ dàng và đơn giản giữa nhị hoặc nhiều mục, thường thuộc kiểu để nhận thấy các mẫu. Ví dụ, khi theo dõi thói quen mua sắm và chọn lựa của người dân, bạn có thể nhận biết rằng một khách hàng luôn cài đặt kem lúc họ tải dâu tây, nên bạn cũng có thể đề xuất rằng lần tới lúc họ cài dâu tây, họ cũng có thể muốn thiết lập kem.

Việc xây dựng các công cụ khai phá dữ liệu dựa trên sự phối kết hợp hay mọt quan hệ rất có thể thực hiện đơn giản dễ dàng bằng những công cố kỉnh khác nhau. Ví dụ, trong InfoSphere Warehouse một trình hướng dẫn đưa ra các cấu hình của một luồng tin tức được thực hiện kết hợp bằng phương pháp xem xét thông tin nguồn đầu vào của đại lý dữ liệu, tin tức về các đại lý ra đưa ra quyết định và tin tức đầu ra của bạn. Hình 2 cho biết thêm một lấy một ví dụ của cơ sở dữ liệu ví dụ mẫu.

*

Sự phân loại

Bạn có thể sử dụng sự phân nhiều loại để gây ra một ý tưởng phát minh về đẳng cấp khách hàng, kiểu mặt hàng hoặc hình trạng đối tượng bằng phương pháp mô tả các thuộc tính để nhận biết một lớp cầm thể. Ví dụ, chúng ta cũng có thể dễ dàng phân loại những xe ô tô thành những kiểu xe khác biệt (xe mui kín, 4x4, xe rất có thể bỏ mui) bằng cách xác định các thuộc tính không giống nhau (số chỗ ngồi, làm ra xe, những bánh xe điều khiển). Với một mẫu xe mới, chúng ta có thể đặt nó vào trong 1 lớp cố gắng thể bằng cách so sánh các thuộc tính với khái niệm đã biết của chúng tôi. Chúng ta có thể áp dụng những nguyên tắc tương tự ấy cho các khách hàng, ví dụ bằng cách phân loại khách hàng theo độ tuổi và nhóm xóm hội.

Hơn nữa, bạn cũng có thể sử dụng bài toán phân nhiều loại như một mối cung cấp cấp, hoặc như là công dụng của các kỹ thuật khác. Ví dụ, bạn có thể sử dụng các cây đưa ra quyết định để xác minh một biện pháp phân loại. Bài toán phân cụm sẽ có thể chấp nhận được bạn sử dụng những thuộc tính tầm thường theo các cách phân loại không giống nhau để phân biệt các cụm.

Việc phân nhiều (Clustering)

Bằng phương pháp xem xét một hay nhiều thuộc tính hoặc những lớp, chúng ta có thể nhóm các phần tài liệu riêng lẻ với nhau để chế tác thành một ý kiến cấu trúc. Ở mức đối chọi giản, việc phân cụm đang sử dụng một hoặc các thuộc tính có tác dụng cơ sở cho chính mình để nhận ra một team các hiệu quả tương quan. Việc phân nhiều giúp để nhận biết các thông tin khác nhau vì nó tương quan với các ví dụ khác, nên chúng ta cũng có thể thấy ở chỗ nào có hầu như điểm tương đồng và các phạm vi phù hợp.

Xem thêm: Xổ Số Miền Nam Xổ Số Miền Nam Hôm Nay, Xsmn 2/9, Sxmn 2/9/2022

Việc phân cụm rất có thể làm theo nhì cách. Chúng ta cũng có thể giả sử rằng tất cả một cụm ở một điểm cố định và kế tiếp sử dụng các tiêu chuẩn nhận dạng của cửa hàng chúng tôi để coi liệu các bạn có đúng không. Đồ thị trong Hình 3 là một trong ví dụ hay. Trong lấy một ví dụ này, một ví dụ mẫu mã về dữ liệu marketing so sánh tuổi của bạn với quy mô phân phối hàng. Thật hợp lí khi thấy rằng những người ở độ tuổi hai mươi (trước khi kết hôn và còn nhỏ), ở lứa tuổi năm mươi với sáu mươi (khi không hề con mẫu ở nhà), có khá nhiều tiền tiêu hơn.

*

Trong ví dụ này, bạn có thể nhận ra nhì cụm, một cụm bao bọc nhóm 2 ngàn Đô la Mỹ/ 20-30 tuổi với một cụm ở nhóm 7.000-8.000 Đô la Mỹ/ 50-65 tuổi. Trong trường đúng theo này, công ty chúng tôi đã giả thuyết hai cụm và đã chứng minh giả thuyết của shop chúng tôi bằng một đồ gia dụng thị đơn giản mà chúng tôi có thể chế tạo ra bằng cách sử dụng ngẫu nhiên phần mềm vật dụng họa thích hợp nào để sở hữu được tầm nhìn nhanh chóng. Những quyết định phức tạp hơn cần phải có một gói ứng dụng phân tích đầy đủ, đặc biệt là nếu bạn muốn các quyết định tự động hóa dựa vào thông tin kề bên gần nhất.

Việc vẽ trang bị thị phân cụm theo cách này là 1 trong ví dụ đơn giản dễ dàng về cái gọi là nhận thấy sự sát bên gần nhất. Bạn có thể nhận ra các người sử dụng riêng lẻ bởi sự thân cận theo nghĩa đen của mình với nhau trên vật dụng thị. Có không ít khả năng là các khách hàng trong thuộc một cụm cũng cần sử dụng chung những thuộc tính không giống và bạn có thể sử dụng sự mong mỏi đợi đó để giúp đỡ hướng dẫn, phân các loại và nếu không thì phân tích những người khác vào tập hợp dữ liệu của bạn.

Bạn cũng rất có thể áp dụng bài toán phân các theo quan điểm ngược lại; nhờ vào một số ở trong tính đầu vào, bạn cũng có thể nhận ra những tạo phẩm không giống nhau. Ví dụ, một nghiên cứu vừa mới đây về những số sạc 4-chữ số vẫn tìm ra các cụm giữa những chữ số trong phạm vi 1-12 với 1-31 cho các cặp trước tiên và thứ hai. Bằng phương pháp vẽ các cặp này, bạn có thể nhận ra và khẳng định các cụm liên quan đến ngày tháng (các ngày sinh nhật, các ngày kỷ niệm).

Dự báo

Dự báo là 1 chủ đề rộng và đi từ dự báo về lỗi của những thành phần hay thiết bị móc cho việc phân biệt sự ăn lận và thậm chí là là cả dự báo về lợi nhuận của doanh nghiệp nữa. Được sử dụng kết phù hợp với các kỹ thuật khai phá dữ liệu khác, dự báo bao gồm có việc phân tích các xu hướng, phân loại, so khớp chủng loại và côn trùng quan hệ. Bằng phương pháp phân tích các sự khiếu nại hoặc những cá thể trong thừa khứ, bạn cũng có thể đưa ra một dự báo về một sự kiện.

Khi sử dụng quyền lợi thẻ tín dụng, chẳng hạn, chúng ta cũng có thể kết hợp so với cây quyết định của các giao dịch đơn nhất trong vượt khứ với vấn đề phân nhiều loại và các sự so khớp mẫu lịch sử vẻ vang để nhận thấy liệu một thanh toán giao dịch có gian lận hay không. Rất có thể là việc triển khai một sự so khớp giữa các việc mua vé các chuyến cất cánh đến Mỹ và các giao dịch trên Mỹ cho biết giao nhờn này hợp lệ.

Các mẫu mã tuần tự

Thường được thực hiện trên những dữ liệu dài hạn, những mẫu tuần tự là 1 trong những phương pháp bổ ích để nhận ra các xu hướng hay các sự mở ra thường xuyên của những sự kiện tương tự. Ví dụ, với dữ liệu khách hàng, bạn cũng có thể nhận ra rằng các quý khách cùng nhau cài một bộ sưu tập riêng lẻ về các thành phầm tại những thời điểm khác biệt trong năm. Vào một áp dụng giỏ hàng, bạn có thể sử dụng thông tin này để auto đề xuất rằng một số món đồ nào này được thêm vào một giỏ sản phẩm dựa trên gia tốc và lịch sử dân tộc mua hàng trong vượt khứ của các khách hàng.

Các cây quyết định

Liên quan đến hầu như các kỹ thuật khác (chủ yếu đuối là phân các loại và dự báo), cây quyết định rất có thể được sử dụng hoặc như là là 1 phần trong các tiêu chí lựa lựa chọn hoặc để cung cấp việc sử dụng và lựa chọn dữ liệu cụ thể phía bên trong cấu trúc tổng thể. Vào cây quyết định, bạn bắt đầu bằng một thắc mắc đơn giản gồm hai câu vấn đáp (hoặc đôi khi có tương đối nhiều câu vấn đáp hơn). Từng câu trả lời lại dẫn cho thêm một câu hỏi nữa để giúp phân nhiều loại hay nhận thấy dữ liệu sao cho hoàn toàn có thể phân loại dữ liệu hoặc sao cho có thể thực hiện dự báo trên các đại lý mỗi câu trả lời.

*

Các cây quyết định thường được thực hiện cùng với các khối hệ thống phân loại tương quan đến tin tức có phong cách thuộc tính cùng với các khối hệ thống dự báo, nơi những dự báo không giống nhau rất có thể dựa trên kinh nghiệm lịch sử hào hùng trong quá khứ sẽ giúp hướng dẫn cấu tạo của cây đưa ra quyết định và công dụng đầu ra.

Các tổ hợp

Trong thực tế, thật hiếm khi các bạn sẽ sử dụng một kỹ thuật trong các những kỹ thuật cá biệt này. Việc phân loại và phân các là hồ hết kỹ thuật tương đương nhau. Nhờ thực hiện việc phân nhiều để nhận thấy các thông tin lân cận gần nhất, chúng ta cũng có thể tiếp tục điều khiển và tinh chỉnh việc phân loại của mình. Thông thường, chúng tôi sử dụng những cây quyết định sẽ giúp đỡ xây dựng và nhận ra các loại mà shop chúng tôi có thể theo dõi chúng trong một thời hạn dài để nhận thấy các trình tự và các mẫu.

Xử lý (bộ nhớ) dài hạn

Trong tất cả các cách thức cốt lõi, hay có nguyên nhân để ghi lại thông tin và tò mò từ thông tin. Trong một số kỹ thuật, vấn đề này hoàn toàn rõ ràng. Ví dụ, cùng với việc tìm hiểu các chủng loại tuần tự và dự báo, chúng ta xem xét lại dữ liệu từ không ít nguồn và các cá thể tin tức để tạo ra một mẫu.

Trong một số kỹ thuật khác, quá trình này rất có thể rõ ràng hơn. Các cây đưa ra quyết định ít lúc được xây đắp một lần cùng không khi nào được coi nhẹ. Khi phân biệt thông tin mới, những sự kiện và các điểm dữ liệu, rất có thể cần xây dựng thêm các nhánh hoặc thậm chí tổng thể các cây mới, để tranh đấu với các thông tin ngã sung.

Bạn gồm thể tự động hoá một số trong những bước của quá trình này. Ví dụ, câu hỏi xây dựng một mô hình dự báo để nhận thấy sự ăn gian thẻ tín dụng là kiến tạo các phần trăm để chúng ta có thể sử dụng cho thanh toán giao dịch hiện tại và sau đó update mô hình đó với những giao dịch bắt đầu (đã được phê duyệt). Rồi tin tức này được đánh dấu sao cho có thể đưa ra ra quyết định một cách gấp rút trong lần tới.

Kết luận

Việc khai phá dữ liệu còn hơn câu hỏi chạy một vài truy vấn phức tạp trên dữ liệu mà chúng ta đã lưu giữ trong cơ sở dữ liệu của mình. Các bạn phải thao tác với tài liệu của mình, định hình lại nó hoặc cấu tạo lại nó, bất kỳ bạn tất cả đang áp dụng SQL, đại lý dữ liệu dựa trên tài liệu như Hadoop hoặc những tệp phẳng đơn giản hay không. Việc phân biệt định dạng thông tin mà bạn rất cần phải dựa trên chuyên môn và câu hỏi phân tích mà bạn muốn làm. Sau khi bạn có thông tin theo format mà bạn cần, chúng ta cũng có thể áp dụng những kỹ thuật không giống (riêng lẻ hay kết hợp lại với nhau) ko phân biệt kết cấu dữ liệu cơ bạn dạng hay tập hợp tài liệu cần thiết.