- 相關(guān)推薦
關(guān)于孤立點分析在稅務(wù)審計上的發(fā)展運用
孤立點分析在稅務(wù)審計上的發(fā)展運用
引言
審計作為一種獨立性的經(jīng)濟(jì)監(jiān)督活動,對被審計單位相關(guān)經(jīng)濟(jì)活動具有特有的制約和促進(jìn)作用。審計的職能就是通過對數(shù)據(jù)的檢查,監(jiān)察財務(wù)收支的真實、合法性,總結(jié)效益情況,同時發(fā)現(xiàn)和揭示重大問題或風(fēng)險隱患。近年來,隨著經(jīng)濟(jì)建設(shè)的不斷發(fā)展,稅務(wù)審計的任務(wù)也越來越重,在日積月累的數(shù)據(jù)量的不斷增加下,使用原有的審計也難以滿足實際要求。隨著審計技術(shù)運用的不斷深入,內(nèi)部審計人員感覺可發(fā)現(xiàn)的審計線索少了,問題越來越隱蔽。而以往的分析技術(shù)傾向于發(fā)現(xiàn)個案的存在,但對審計對象的整體風(fēng)險情況無法進(jìn)行全面的把握。對審計部門困擾的主要有以下問題,一是由于各單位業(yè)務(wù)逐步出現(xiàn)了高度電子化,數(shù)據(jù)海量化,關(guān)注廣泛化,產(chǎn)品衍生化,環(huán)境多樣化的情況,讓審計效率明顯降低。二是審計在其執(zhí)行過程中,所用的工具和程序都是基于事先的審計假設(shè),而審計假設(shè)則是由審計人員通過以往的正常情況或者發(fā)展趨勢進(jìn)行人工分析得出判斷和說明,但是由于個人的經(jīng)驗和知識是有限的,隨著時間的發(fā)展,業(yè)務(wù)流程的更新,產(chǎn)品和技術(shù)的產(chǎn)生,造成了模型相對滯后,對面新的情況和海量的數(shù)據(jù)著手困難[1]。針對這些問題,人們逐步開始利用數(shù)據(jù)挖掘技術(shù)來進(jìn)行解決。本文主要描述基于數(shù)據(jù)挖掘的孤立點分析在稅務(wù)審計方向上的發(fā)展與運用。
1 數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它可以進(jìn)行歷史數(shù)據(jù)的查詢和遍歷,發(fā)現(xiàn)數(shù)據(jù)倉庫中對象演變特征或?qū)?象發(fā)展趨勢,也能找出過去數(shù)據(jù)潛在的關(guān)系,從而進(jìn)行信息的挖掘,還可以根據(jù)過去的數(shù)據(jù)對未來進(jìn)行預(yù)測和分類。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析的本質(zhì)區(qū)別就是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘現(xiàn)階段在稅務(wù)審計中主要應(yīng)用了聚類技術(shù)、分類與預(yù)測技術(shù)、關(guān)聯(lián)技術(shù)、孤立點發(fā)現(xiàn)技術(shù)等等[2]。
2 孤立點的定義與產(chǎn)生
2.1 孤立點的定義孤立點分析是數(shù)據(jù)挖掘中的一個重要研究方向。利用數(shù)據(jù)挖掘技術(shù)可以在海量的數(shù)據(jù)處理過程中獲得一般模型,但這些數(shù)據(jù)并不是全部適用于這個一般模型,比如一些特殊值。這些不符合一般數(shù)據(jù)模型的數(shù)據(jù)從數(shù)據(jù)處理的目的來說可能就是數(shù)據(jù)整體的孤立數(shù)據(jù)、異常數(shù)據(jù)、偏差數(shù)據(jù)或者噪聲數(shù)據(jù)。它們也有它們的共同特性,就是與海量數(shù)據(jù)中的其他數(shù)據(jù)有著明顯的不一致,這些數(shù)據(jù),我們統(tǒng)稱為孤立點。一般的孤立點分析在數(shù)據(jù)挖掘中存在兩個基本任務(wù):一是在給定的數(shù)據(jù)集合中定義什么樣的數(shù)據(jù)可以被認(rèn)為不一致的;二是找到一個有效的方法來挖掘這樣的孤立點[3]。
2.2 孤立點的產(chǎn)生孤立點的產(chǎn)生原因是多方面的,簡單來說,可以歸納為以下幾個方面: 二是人為欺詐行為所致。為了某種目的而直接對數(shù)據(jù)進(jìn)行違背事實的更改或者添加,造成數(shù)據(jù)值與實際情況有很大區(qū)別。個別單位虛報的統(tǒng)計數(shù)據(jù)就屬于此類。三是由于儀器或者設(shè)備出錯導(dǎo)致。在數(shù)據(jù)采集過程中測量儀器或者設(shè)備難免不會受到外界的影響而使得采集到的數(shù)據(jù)出現(xiàn)錯誤。四是數(shù)據(jù)系統(tǒng)的變化或者故障。數(shù)據(jù)系統(tǒng)在運行或者搬遷的時候,可能因為個別不可預(yù)料的操作對其中的數(shù)據(jù)造成影響。比如數(shù)據(jù)庫的搬遷,恢復(fù)時出現(xiàn)小范圍報錯的情況。五是數(shù)據(jù)發(fā)生自然偏差導(dǎo)致。事物是不斷發(fā)展和變化的,在這個過程中是符合自然規(guī)律的,而這些變化和發(fā)展也會對其中的數(shù)據(jù)產(chǎn)生影響。比如同一個公司里職員升職為經(jīng)理后工資就會高出不少,但這些變化卻是合理的存在從上面的原因來看,孤立點不論是怎么產(chǎn)生的,都并不是毫無意義的異常數(shù)據(jù)。這些孤立點數(shù)據(jù)對總結(jié)海量數(shù)據(jù)得出一般模型不會產(chǎn)生積極作用,但從這些估計點進(jìn)行分析卻能夠獲取到有價值的信息。作為稅務(wù)審計人員,就應(yīng)該特別重視孤立點數(shù)據(jù),從中深究出審計線索。
3 孤立點在稅務(wù)審計上的運用因為稅務(wù)審計業(yè)務(wù)的性質(zhì),決定了在稅務(wù)審計中運用數(shù)據(jù)挖掘技術(shù)來對海量數(shù)據(jù)的孤立點進(jìn)行分析能夠取得比較好的審計線索,從而達(dá)到審計的目的。在稅務(wù)審計工作中,通過基于數(shù)據(jù)挖掘的孤立點分析來查找審計線索特征主要分為以下三個步驟。
3.1 尋找孤立點的數(shù)據(jù)準(zhǔn)備數(shù)據(jù)的準(zhǔn)備可以分為三個主要步驟:一是數(shù)據(jù)選取,二是數(shù)據(jù)預(yù)處理,三是數(shù)據(jù)變換。數(shù)據(jù)選出主要是為了確定目標(biāo)任務(wù)的操作對象,它是根據(jù)用戶的需要從原始數(shù)據(jù)庫抽取出來的一部分表和字段。所以在數(shù)據(jù)選取之前先要對具體的審計事項進(jìn)行分析,綜合數(shù)據(jù)字典和數(shù)據(jù)說明文檔對數(shù)據(jù)的含義和業(yè)務(wù)流程等方面的情況進(jìn)行分析,對數(shù)據(jù)的產(chǎn)生有個全面的了解。數(shù)據(jù)預(yù)處理是一個相當(dāng)耗費時間的過程,它包括數(shù)據(jù)噪聲的消除、缺值數(shù)據(jù)的推導(dǎo)與計算、重復(fù)記錄的處理、數(shù)據(jù)類型的轉(zhuǎn)換等等。比如在處理空值和噪聲時一般可以采取如下幾個方法:一是均值法,即用數(shù)據(jù)庫中該屬性已知的屬性填充,具體為當(dāng)前點k(k可自定義)個不為空的數(shù)據(jù)點的平均值來替換。二是平滑法,假設(shè)當(dāng)前數(shù)據(jù)點是噪聲數(shù)據(jù)或者空值,則取出當(dāng)前點a個(a可自定義)不為空的數(shù)據(jù)點的加權(quán)平均值來替換。三是預(yù)測法,采取回歸、擬合、插值、歸納等方法,推斷空值或噪聲數(shù)據(jù)屬性最可能的取值。四是統(tǒng)計頻率法,此法既適用離散數(shù)據(jù),也可用于經(jīng)過離散化的連續(xù)數(shù)據(jù)的數(shù)據(jù)缺損處理,假如數(shù)據(jù)庫中的屬性存在有噪聲數(shù)據(jù)或者空值,屬性a的值域為{,,……,},P()表示值在該系統(tǒng)中出現(xiàn)的頻率?梢杂米畲蟪霈F(xiàn)頻率的值max{P()}進(jìn)行填充[4]。數(shù)據(jù)變換的主要目的則是數(shù)據(jù)維數(shù)消減,主要可分為兩種:一種是從有關(guān)變量中消除無關(guān)、弱相關(guān)或冗余的維,尋找一個變量子集來構(gòu)建模型,即子集選擇策略;另一種就是把p個原始變量變換為p′個變量,即數(shù)據(jù)變換策略。
3.2 可疑孤立點的檢測一般來說,孤立點的發(fā)現(xiàn)可以分為以下幾種:一是基于統(tǒng)計的孤立點檢測方法。這種方法是將全部的數(shù)據(jù)集合假設(shè)成一個概率模型,根據(jù)模型再采用不一致性檢測來尋找和確立孤立點。基于統(tǒng)計的孤立點檢測挖掘方法比較簡單,實現(xiàn)起來也相對容易,但它的缺點也比較明顯,就是大部分的檢測僅對數(shù)據(jù)分布滿足一定概率分布的數(shù)值型單維數(shù)據(jù)集較為有效,然而許多采用數(shù)據(jù)挖掘技術(shù)就是要求在多維空間中發(fā)現(xiàn)孤立點的。同時,統(tǒng)計學(xué)的方法要求關(guān)于數(shù)據(jù)集合參數(shù)的知識,但是,這參數(shù)有可能是未知的。當(dāng)沒有特定的檢驗時,該類方法不能確保所有的孤立點被發(fā)現(xiàn)。二是基于距離的孤立點檢測方法。為了能夠解決基于統(tǒng)計的孤立點檢測方法的實用性局限,拓寬在多維數(shù)據(jù)上的應(yīng)用,Knorr和NG引入了基于距離的孤立點的概念,他們認(rèn)為如果某個點與數(shù)據(jù)集中大多數(shù)點之間的距離都超過了某個閥值,這個點就是孤立點[5]。但他們的這種方法也有著不足:閥門需要用戶自己合理設(shè)置,使得產(chǎn)生了比較大的人工介入和干預(yù)。我們比較用到的基于距離的孤立點算法有:Cell-based算法、Index-based算法和Nested-loop算法。三是基于密度的孤立點檢測方法。它是在基于距離的方法基礎(chǔ)上建立起來的,根據(jù)數(shù)據(jù)點之間的距離參數(shù)以及某一給定范圍內(nèi)的數(shù)據(jù)點的個數(shù)參數(shù)結(jié)合在一起就是密度的概念;诿芏鹊墓铝Ⅻc檢測能夠很好的檢測出基于距離所不能夠識別的局部孤立點,也不容易遺漏掉周圍的孤立點數(shù)據(jù)。四是基于聚類的孤立點檢測方法。這種方法主要是指在數(shù)據(jù)挖掘的聚類過程中,在產(chǎn)生有意義的聚類信息的同時產(chǎn)生的多余孤立點數(shù)據(jù)。在聚類過程中,算法會將數(shù)據(jù)集中異常的信息作為噪音而忽略掉,雖然不利于異常信息的檢測,但它掃描數(shù)據(jù)集效率非常高,適用于現(xiàn)在的海量數(shù)據(jù)。五是基于偏離的孤立點檢測方法;谄x的孤立點檢測時通過對檢測數(shù)據(jù)集的主要特征來確定孤立點的,與指定的主要特征描述不一致的所有數(shù)據(jù)集都會被認(rèn)為是孤立點。比較常見的基于偏離的孤立點檢測技術(shù)是序列異常技術(shù)和OLAP數(shù)據(jù)立方體技術(shù)[6]。
3.3 可疑孤立點的判斷接下來就需要對找出的孤立點進(jìn)行人工分析,看是否為疑點數(shù)據(jù)。發(fā)現(xiàn)的孤立點雖然都符合挖掘的條件,但不一定對稅務(wù)審計工作有利用價格。比如,有些孤立點雖然是異常的,但卻是合理數(shù)據(jù),有些孤立點雖然是異常的,但影響卻非常小,達(dá)不到需要關(guān)注的水平。這些都需要審計人員根據(jù)業(yè)務(wù)的目的進(jìn)行具體問題具體分析,從而從中選出適合的孤立點數(shù)據(jù)。再對初步選擇出來的疑點數(shù)據(jù)進(jìn)行審計專業(yè)判斷,通過專業(yè)的辦法最終確定審計線索。常見的方法主要有:一是審閱法,它主要是指對各種書面、電子資料的檢查。通過審閱法,可以對孤立點有關(guān)的其它資料(包括經(jīng)濟(jì)信息材料等等)進(jìn)行審閱,來確認(rèn)該孤立點是否屬于問題數(shù)據(jù)。二是復(fù)算法,復(fù)算法主要指通過對有關(guān)數(shù)據(jù)的重新整理和計算,以驗證其結(jié)論是否可靠的一種方法。根據(jù)實際情況,通過對檢測出的可疑孤立點進(jìn)行再次計算,多次重復(fù)來確認(rèn)該孤立點是不是問題數(shù)據(jù)。三是存盤法,存盤法指的是通過對財產(chǎn)物質(zhì)的清點、計算,驗證可疑孤立點的數(shù)據(jù)的真實性。四是函證法,因為被審計單位的業(yè)務(wù)不可能是孤立的存在,肯定會跟其它的單位有著各種各樣的聯(lián)系,所以,可以發(fā)送函件給其它單位,來驗證數(shù)據(jù)是否合理,確定孤立點是否為問題數(shù)據(jù)。
4 結(jié)論總之,運用一定的數(shù)據(jù)挖掘算法對被審計的海量數(shù)據(jù)采取聚類或其它的檢測方法,找出數(shù)據(jù)的一般規(guī)律,篩選出孤立點,并以圖、表等方式展現(xiàn)給審計人員,審計人員就能根據(jù)專業(yè)知識和方法判斷其正確性與合理性,經(jīng)過多次的挖掘、分析、判斷,最終建立確定適合的審計線索。基于數(shù)據(jù)挖掘技術(shù)的孤立點分析可以大大縮小搜索審計線索的范圍,幫助審計人員及時發(fā)現(xiàn)違紀(jì)線索,增強(qiáng)審計人員的數(shù)據(jù)分析能力,大幅度提高審計工作的質(zhì)量和效率,對行業(yè)依賴度較低并具有一定的通用性。因此,包括孤立點分析在內(nèi)的數(shù)據(jù)挖掘技術(shù)在審計領(lǐng)域必將能得到更多的運用和發(fā)展。
【孤立點分析在稅務(wù)審計上的發(fā)展運用】相關(guān)文章:
《積累運用》教材分析07-03
JDPaint雕塑的運用分析論文07-03
稅務(wù)案頭審計報告范文07-02
國內(nèi)體育運動在數(shù)據(jù)分析領(lǐng)域上發(fā)展如何?07-10
測評在諾基亞員工發(fā)展中的有效運用07-12
《函數(shù)性質(zhì)的運用》數(shù)學(xué)教學(xué)案例分析07-03
白領(lǐng)如何避免被孤立07-12