■數(shù)據(jù)庫制作占整個分析工作量的80%
為了制作用于構(gòu)建顧客行動模式的數(shù)據(jù)庫,首先要明確其利用目的,在此基礎(chǔ)上再進行設(shè)計工作;然后根據(jù)設(shè)計的內(nèi)容進行數(shù)據(jù)清理及個人、家庭信息匯總等。通過這樣的一個過程,整理出一人一行的一覽表,制成構(gòu)建顧客行動模式可使用的數(shù)據(jù)庫。這一系列處理會相當(dāng)麻煩,因此需要花費很多時間。大體而言,數(shù)據(jù)庫的制作要占到所有分析工作80%的工作量。
■數(shù)據(jù)庫設(shè)計占整個數(shù)據(jù)庫制作思考量的80%
數(shù)據(jù)庫的設(shè)計是從已有的數(shù)據(jù)中,找出構(gòu)建顧客行動模式所必需的信息。該數(shù)據(jù)庫中的數(shù)據(jù)是顧客行動模式的輸入數(shù)據(jù),因此會直接影響模式的精度,所以數(shù)據(jù)庫設(shè)計是所有分析工作中最重要的。要對數(shù)據(jù)進行細查,就應(yīng)清楚地將能夠使用的數(shù)據(jù)和不能夠使用的數(shù)據(jù)分開。對于這項工作,不僅需要有縝密的思考能力,還要有在過去的經(jīng)驗及事物的基礎(chǔ)上進行類推的能力。可以說在數(shù)據(jù)庫的做成中數(shù)據(jù)庫的設(shè)計就需要占用其80%的思考量(見下圖)。
■需要的數(shù)據(jù)并不一定全部都有
數(shù)據(jù)庫設(shè)計時,要找到構(gòu)建顧客行動模式所必需的數(shù)據(jù),但是想要的信息并不一定全都在自己公司的數(shù)據(jù)儲備中。如果要制作精細的顧客行動模式,從顧客屬性到對應(yīng)的顧客履歷,所有與顧客相關(guān)的數(shù)據(jù)都是需要的。但事實是,不要說收集所有的數(shù)據(jù),就連收集到的數(shù)據(jù)也不一定完整。而且,收集到的數(shù)據(jù)也并不都可以直接用于顧客行動模式的構(gòu)建。例如數(shù)據(jù)的分布范圍過廣,或者牽連的其他數(shù)據(jù)過多時,就難以得到正確的分析結(jié)果,或者無法充分把握其結(jié)果。為了解決此類問題,需把收集到的數(shù)據(jù)進行適當(dāng)加工,轉(zhuǎn)換成對構(gòu)建顧客行動模式有幫助的信息。例如,將郵政編碼改為行政區(qū)域和地域名稱,對購買履歷中的購買次數(shù)、累計金額、間隔等變量做一個說明等。對于變量的說明需要經(jīng)驗和靈感,因此數(shù)據(jù)挖掘被公認(rèn)為是一種專業(yè)技能。
■數(shù)據(jù)庫和個人信息匯總處理
即使作出了變量說明,也還沒有完成構(gòu)建顧客行動模式的數(shù)據(jù)庫。還有必要進行數(shù)據(jù)清理和個人信息匯總。數(shù)據(jù)清理是對信息內(nèi)容進行大小寫、全半角的統(tǒng)一,數(shù)據(jù)類型的統(tǒng)一,對空格(Null)等缺損值插入文字列實施處理,并用數(shù)據(jù)清理工具調(diào)整為可處理狀態(tài)。如果一個項目的缺失信息太多,那么這個項目將從模式的構(gòu)建內(nèi)容中去除。
個人信息匯總是對數(shù)據(jù)庫中存在的顧客信息進行統(tǒng)一化處理,把住所、姓名、電話號碼、出生年月等作為關(guān)鍵項目,將同一顧客的多條記錄匯總成一條記錄。屆時,再利用合算總額等方法,整合關(guān)鍵項目以外的信息。對于家庭,也存在統(tǒng)一化的必要,可以用同樣的方法實行家庭信息匯總。
