基于二元logistic模型的P2P違約分析
王浩博 對外經濟貿易大學信息學院 摘要:P2P網絡借貸自誕生以來就由于其高風險和高收益而飽受爭議,平臺的不合規、不透明以及P2P市場投資者較差的風險識別能力給網貸市場增加了許多的不穩定性,基于平臺現有的信息對借款人進行違約預測具有十分積極的意義。本文基于二元logistic模型對來自拍拍貸的真實借貸數據進行分析和處理,發現拍拍貸平臺的不同標的類型的違約風險存在顯著差異;另外借款利率,借款期限等因素和違約風險正向相關,是否通過各項認證和違約風險負相關,年齡和性別對違約因素沒有顯著影響。 關鍵詞:P2P網絡借貸;拍拍貸;logistic回歸;違約風險 一、引言 P2P網絡貸款平臺作為一種新興的產業形勢,自其誕生以來就面臨著許多的問題。雖然它利用自身的技術和平臺優勢幫助資金供需雙方直接建立借貸關系,在小微企業融資和個人借貸方面起到了重要的作用,但是它同時也給我們的借貸市場帶來了很多的不確定性和風險,嚴重擾亂了信用市場的交易秩序。這種問題的原因主要來自于借貸雙方嚴重的信息不對稱,因為借款人通過平臺發布借款需求和相關信息并由平臺進行審核,而平臺所提供的信息又相當有限,這就導致大多數投資者往往無法充分獲取借款人的有效信息,從而無法合理的預判風險。再加上P2P市場上大多數投資者又都是缺乏經驗和專業知識的個人投資者,其風險識別和管理能力較差,而法律和社會對于違約的借款者懲罰力度和輿論督導強度又不夠大,這就又加劇了P2P網貸的違約風險。大量的資金違約導致平臺資金催收困難,資金流停滯,用戶提現困難,從而無法維持正常經營。自2015年起,我國P2P問題平臺和停業平臺數開始激增。截止2019年11月上述平臺數目已達6613家,19年平均每月新增問題平臺數目43家,而且其數量仍保持著一定速度繼續增加。①基于上述背景我們可以看出,P2P借貸的風險管理對于其行業的發展至關重要,有效識別出高風險借款人對于投資者和平臺自身都有積極的指導意義。本文以拍拍貸的大量真實數據(投資者可見的)為基礎,利用二元logistic模型對影響借款人違約風險的因素進行分析,并找出其中有現實參考意義的幾個影響因素,從而在投資者在投資時對其提供有力的幫助,提升其風險辨別能力,提高整個網貸市場的經營效率。 二、文獻綜述 目前,國內眾多學者在P2P違約風險方面已經取得了豐富的研究成果。在對違約風險的影響因素上面,繆蓮英等人以Prosper網貸平臺的數據為基礎,采用逐步回歸法對社會資本與網貸違約風險的關系進行實證研究,最終發現在P2P網絡借貸中,社會資本的存在能夠降低借款者違約風險,通過提高借款者的社會資本,可以充分發揮社會資本的甄別、監督以及社會懲罰作用,從而降低其違約風險發生的可能性。何平平等人采用Probit和Tobit模型定量研究P2P網貸的利差對于借款人違約風險的影響,研究發現利差與借款人違約風險具有正向相關關系,利差越大,借款人違約概率越高;顧慧瑩使用WDW上海直營店的運營數據,通過logistic和Cox回歸研究了借款人基本信息與其違約風險的關系,發現外地戶籍、已婚和歷史違約記錄與借款違約率和違約速率均正相關,揭示了借款人的個人特征信息具有一定的指導意義;沈玉溪通過決策樹建立P2P風險評估模型對影響借款人違約風險的因素進行分析并排序,發現借款收入比、信用等級、借款期限、借款利率和住房情況是前5個影響借款人違約風險的因素;蘇亞以人人貸的真實交易數據為基礎研究借款人的軟信息(描述性文本中的拼寫錯誤)對于其違約風險的作用,結果表明借款人的軟信息對借款人違約風險有顯著正向作用。 在風險評估和預警的方法上面,除了傳統的logistic回歸和Cox回歸之外,決策樹(C5.0)、支持向量機(SVM)、BP神經網絡等數據挖掘算法也被引入了進來。涂艷將決策樹、隨機森林、神經網絡、最鄰近值等算法和傳統的回歸模型在二分類預測的準確度上進行了對比分析,發現大部分機器學習算法預警準確率較高,對P2P網絡借貸違約預警具有較強的適用性,其中以隨機森林效果最優。之后眾學者通過集成思想和引入優化算法對P2P風險預警模型進行進一步的改進,丁嵐等人以邏輯回歸、決策樹作為初級學習器,以SVM支持向量機作為次級學習器,構建了基于Stacking集成策略的評估模型來預測P2P網貸中借款人的違約風險;丁越通過遺傳算法對傳統Logistic模型進行優化,從而使得模型預測的準確率、精確率和召回率取得了顯著的提升;胡忠義在K-均值聚類的基礎上用投票法和學習法對基分類器進行動態集成,使其預測的準確度較之于先前的靜態集成方法又有了一定的提升。 三、變量選擇與數據處理 拍拍貸是我國第一家成立的P2P平臺,至今已有12年的運營歷史,且成功在紐交所上市。拍拍貸在交易規模、平臺人氣、預期收益率以及運營的合規性和透明性等方面都取得了不錯的成績,是我國P2P平臺中比較有代表性的平臺,選取此平臺的標的數據有比較好代表性和指導意義。我們從拍拍貸網站上爬取了成交時間從2015年1月初到2017年1月底的292532支散標的信息,包括該散標的基本信息(標的號、借款金額、借款利率、借款期限、信用評級、借款類型),借款人的基本信息(借款人姓名、年齡、是否首為次標的,手機、學歷、征信等認證情況),借款人的歷史信息(歷史成功借款次數、歷史借款額、歷史正常還款期數、歷史逾期還款期數)以及該標的最終狀態(已還清、逾期、正常還款中)。 為了達到我們的研究目的和二元logistic的變量均需為數值型數據的要求,我們先對數據進行預處理。1.首先我們將正在還款中的十多萬條數據刪除,因為該標的尚未結束,我們不知道借款人的還款情況,我們的因變量是用0,1表示的二元變量,所以僅需要已還清和逾期這兩類數據。2.由于眾多數據中逾期的數據僅為九千多條,而已還清的數據則有十幾萬條,兩邊占比嚴重不均,這將會產生模型對逾期貸款的預測準確度極低而綜合準確度極高的情況,所以我們用R語言sample函數隨機抽取一萬條標的狀態為已還清的數據使其比例接近一。3.我們需要將原數據非數值型數據轉換成數字,比如初始評級、借款類型等,分別用數字1、2、3等代替。4.將年齡、借款金額、借款期限等數據離散化,從而避免極端值對擬合結果產生影響。5.缺失值和錯誤值處理,數據中有少數值取值異常,由于我們數據量充足,所以我們將其篩選出來并直接刪除。 基于二元logistic在通過離散型自變量對二元因變量進行預測時的優良性能和準確度,我們選取其作為我們的模型進行分析。因變量Y為該標的的最終狀態,0表示該標正常還清,1表示其逾期還款或為還清。X1,X2,X3,X4,X5......X15則表示對借款人是否按期還款的影響因素,β1,β2,β3.....βi表示權重,P表示概率借款人預期或無法償還的概率,我們有概率P(Y=1|X)=exp(βiXi)/1+exp(βiXi),同理可得P(Y=0|X)=1/1+exp(βiXi)。我們得到概率值后往往會設定一個閾值來對樣本進行分類(比如0.5),當概率值大于該閾值時歸為一類,小于0.5時則歸為另一類。 表1 P2P違約模型變量指標體系
研究假設 結合蘇亞和黃文彬等人的研究,在我們從拍拍貸獲取的借款人基本信息、借款人歷史借貸信息和該標的基本信息我們提出以下幾條假設: (一)標的基本信息 標的的基本信息包括標單號、借款金額、借款時期以及借款利率、平臺評級、標的類型等,這些數據往往是投資人最直接關注到的信息,也是各個網站都直接公開的數據。鑒于前人對金額、利率、平臺評級對違約率的影響已經有所研究,本文則重點關注拍拍貸中不同類型標的對于其違約情況的影響,拍拍貸將其借款分為4類。其中拍拍貸的應收安全標,是一種針對網站借出者推出的產品(即發標人必須同時是網站的投資者),用戶有足夠的待收款才有機會發布,該標發布條件嚴格且有一定的應收款保障;電商標是針對電商經營者的發標,借款人的網上店鋪達到一定等級以后可以申請額度;APP閃電是一種可以在短期內快速滿標的小額標的類型,擁有借款周期短、滿標用時短等特點;然后是正常借款類型的普通標,該標主要針對工薪階層、私營業主和學生。我們認為上述幾種標的的風險程度有顯著差異,所以其違約情況夜應有所不同,提出假設一如下:(在這里我們以普通標為參考設置虛擬變量t1,t2,t3以研究不同類型標的風險差異) H1:不同借款類型的標的違約風險有顯著差異 (二)借款人基本信息 借款人基本信息是對借款人自身實際情況的描述,包括借款人的年齡、性別、學歷、是否通過戶口認證、是否通過征信認證、是否進行手機認證等。隨著我國個人征信制度的不斷完善,我國公民的信用意識也不斷隨之增強,個人征信報告的存在(即征信認證)勢必會對借款人的違約行為產生一定的影響,同樣手機認證、戶口認證等一系列認證均可以使借款人暴露更多的自身信息,這些信息會加重其違約行為產生的后果,所以我們認為上述認證會使其違約的概率減小。 H2:通過手機、戶口、征信等一系列網貸認證的借款人違約概率偏低 (三)借款人歷史借貸信息 借款人之前的借款還款情況可以給投資人提供很大的參考,而對于首次借貸的人來說他的信用表現投資者在投資時是沒有數據的,我們認為這種未知性會加大借款人的違約概率,而需要多次借款的借款者因為有下次借款的需求,往往可能更注重自身的信用管理;對于非首次借款的借款人來說,其以往的逾期期數越多(即逾期率高),說明其越不注重自己的信譽狀況,違約概率則會越高,于是我們提出以下兩個假設 H3:歷史成功借款次數較多的借款人違約概率越低 H4:逾期率越高的人違約風險越高 四、實證分析 由于模型中的變量數量較多,為了避免其對回歸結果產生負面影響,我們在回歸之前使用SPSS19.0對其進行多重共線性檢測,得到的共線性檢驗結果如表2 所示。通過方差膨脹因子VIF值我們可以看出,各變量的VIF值均小于10,可決系數R方小于0.1,說明我們可以認為各變量之間不存在多重共線性關系。 表2 多重共線性檢驗
將X1至X17作為因變量,標的狀態作為因變量帶入到二元logistic模型中用向前步進(Wald)法進行回歸,將得到的結果輸出得表3(表中僅顯示通過顯著性檢驗的變量)。由結果可知,歷史成功借款總額、性別、借款金額、歷史成功借款次數未通過檢驗,而年齡在顯著性為1%的水平下也無法通過檢驗。上述結果表明這幾項因素對于借款人是否為違約的影響不大,借款人的違約風險并不因為年齡或者性別而呈現出顯著差異,所以我們投資人在選擇標的時不應該存在年齡或者性別上的刻板印象。歷史成功借款總金額和歷史成功借款次數也未通過顯著性檢驗,說明借款人歷史的借款行為并不會對違約風險產生較大影響,其頻繁借款不見得他的違約風險低,其從未借款也不見得其違約風險高,這說明我們的假設3是不正確的,頻繁借款者可能由于自身資金問題比較嚴重等原因反而無法保證按期正常還款。 表3 二元logistic回歸結果
然后我們討論顯著性檢驗的指標以及驗證我們在上文中提出的剩下幾個假設。從借款標的基本信息來看,該類指標對違約風險影響較為明顯,其中借款利率和借款期限與違約風險呈正相關,即借款期限越長,借款利率越高,違約風險就約高。這不難理解,標的的借款時間越長、利率越高,那么借款人的借款成本就越重,其違約的可能性也會增加。初始平臺評級與違約概率顯著正相關,由OR值可以看出,指標每高一級違約風險增加53.8%,說明平臺的評級較為合理,對標的風險情況有一定程度的指示作用,對個人投資者來說具有一定的參考價值。下面來驗證假設H1,我們通過設置虛擬變量來研究不同類型標的的違約風險情況,由下表可以得知上述各變量在5%水平均通過顯著性檢驗,說明不同標的類型的風險有顯著不同。其中借款類型t1表示應收安全標的違約風險是普通標類型的0.239倍,電商標的違約風險是普通標的0.298倍,而APP閃電標的風險是普通標的0.451倍,那么我們可以得到下列排序,即不同標的違約風險由大到小為:普通標>APP閃電>電商>應收安全標。 表4 不同標的類型回歸結果
從借款人基本信息來看,征信認證、學歷認證、視頻認證、戶口認證、手機認證的系數均為負,說明有認證的借款人違約概率要低于未認證的借款人,這也驗證了我們的假設二。其中是否通過手機認證的差別最為明顯,通過手機認證的借款人的違約概率是未通過認證的借款人的0.47倍,然后是戶口和征信認證,通過與未通過違約比在0.65左右,學歷和視頻認證結果在0.84左右;在借款人歷史表現中逾期率與違約概率顯著正相關,而且其影響程度在上述指標中是最大的,逾期期數占總還款期數的比例越高,說明其多次逾期信用水平較低,有較好的違約風險。 為了避免我們的樣本抽取對回歸結果產生影響,我們重新更換樣本,從十幾萬條已還清的標的中重新抽取一萬條數據組成新的數據集再次帶入到我們的二元logistic模型中,得到的結果和之前的結果如下表所示。左邊打星號的是我們的新樣本的回歸結果,右邊的是原樣本樣本結果。對比兩次結果可以發現二者之間無顯著差異,說明回歸結果穩健性較好。 表5 兩樣本回歸結果對比
五、結論與建議 通過數據的采集以及模型分析我們得到了以下幾條結論:1.拍拍貸平臺不同的標的類型的違約風險不同,保守型個人投資者可以優先選擇安全標或者APP閃電標來投資2.通過一系列認證的借款人往往有著更小的違約概率,其中是否手機、戶口和征信認證這三項認證最為關鍵,投資者可優先觀察這三種指標來選擇標的3.對于歷史逾期率較高的借款人,投資人應盡量避免投資其發起的散標,因為該類借款違約風險比較高4平臺的信用評級能較好吻合標的風險狀況,投資人可以將平臺的信用評級作為一項重要參考。 結合我國P2P發展現狀和本文研究對我國網貸行業提出以下幾條建議:1.我國P2P平臺應進一步加強經營的合規性和規范性,積極發揮其在技術和平臺上的優勢以幫助借貸雙方減少信息不對稱。加強對借款人的信息采集和審核力度,完善平臺的風險評級制度,根據交易規模和自身保證金數量合理發標。加強對高利率和長期借款的風險把控,向投資人及時反映資金還款動態。2.加強各平臺之間的信息互通,可以結合區塊鏈技術實現行業內的信息有效交流與共享,以防止個人接待人拆東墻補西墻的行為發生。3.積極將個人網貸信息接入個人征信系統并反應到個人征信報告之中。加大對個人借款者網貸違約的懲罰力度,通過社會的力量增加違約者的違約成本從而起到降低違約風險的作用。P2P自產生以來發展至今,帶給我們的不僅是融資渠道的拓寬還有對正常市場秩序的擾亂,隨著政府的不斷發力和市場熱度的消退,大量P2P平臺面臨停業、轉型的困境。如若不能建立完備的風險控制體系、承擔相應的社會責任,被市場淘汰是史之必然。 注釋: ①文中數據來源于網貸之家。 參考文獻: [1]繆蓮英,陳金龍.P2P網絡借貸中社會資本對借款者違約風險的影響——以Prosper為例[J].金融論壇,2014,19(03):9-15+66. [2]何平平,蔣銀喬,胡榮才.網絡借貸P2P:利差是否包含違約風險隱含信息?——來自人人貸交易數據的實證分析[J].金融經濟學研究,2016,31(03):27-37. [3]顧慧瑩,姚錚.P2P網絡借貸平臺中借款人違約風險影響因素研究——以WDW為例[J].上海經濟研究,2015(11):37-46. [4]沈玉溪,徐浩.P2P網貸借款人違約風險評估——基于決策樹的研究[J].經營與管理,2018(09):13-15. [5]蘇亞,成春林.P2P網貸借款人違約行為影響因素的實證研究[J].金融發展研究,2017(01): 70-76. [6]涂艷,王翔宇.基于機器學習的P2P網絡借貸違約風險預警研究——來自“拍拍貸”的借貸交易證據[J].統計與信息論壇,2018,33(06):69-76. [7]丁嵐,駱品亮.基于Stacking集成策略的P2P網貸違約風險預警研究[J].投資研究,2017,36(04):41-54. [8]胡忠義,王超群,陳遠,吳江,鮑玉昆.基于多分類器動態集成的P2P違約風險評估[J].管理學報,2019,16(06):915-922. |


