- 相關(guān)推薦
數(shù)據(jù)挖掘分析《紅樓夢》
背景介紹:生活的真諦是什么?是從每個(gè)人自己不同愛好、不同擅長、不同的品味中,感受對于生活的獨(dú)特理解和個(gè)性化發(fā)現(xiàn)。所謂賭徒的生活的真諦就是下注時(shí)的快感;作家的生活的真諦就是用文學(xué)作品解剖生活;數(shù)學(xué)家生活的真諦就是探索和欣賞數(shù)學(xué)里的奧秘;舞女的生活真諦就是在燈紅酒綠中體會人性的另一面;萬法歸宗呀,蕓蕓眾生只有看問題的角度不同,沒有絕對的對錯(cuò)和高低。就象本文即將分享的一個(gè)用數(shù)據(jù)分析方法部分解密《紅樓夢》的前后作者一樣,《紅樓夢》后40回作者到底是曹雪芹還是另有其人?這個(gè)論題作為紅學(xué)研究最熱烈的話題當(dāng)然并不是完全可以用純粹的數(shù)學(xué)推理來解決的,但是這里分享的數(shù)學(xué)分析方法和思路,卻是實(shí)實(shí)在在可以讓有緣之人當(dāng)作休閑的小食,不求充饑,但求有趣,從不同的角度和不同的視線觀察生活,就是人生的好享受。
2007年10月10日南京“現(xiàn)代快報(bào)”報(bào)道,南京林業(yè)大學(xué)湯庚國教授另辟鼷徑,從海棠文化出發(fā),分析《紅樓夢》前80回與后40回的差異。湯教授主要從人文花卉方面進(jìn)行分析,發(fā)現(xiàn)《紅樓夢》前80回有16回涉及海棠,而后40回只有4回涉及海棠,以此說明前后差距明顯。受湯教授的啟發(fā),東南大學(xué)數(shù)學(xué)系的韋博成先生(博導(dǎo))從數(shù)學(xué)統(tǒng)計(jì)的專業(yè)角度對湯先生的發(fā)現(xiàn)進(jìn)行數(shù)學(xué)證明,通過兩個(gè)獨(dú)立二項(xiàng)總體等價(jià)性檢驗(yàn),經(jīng)過漸近正態(tài)公式計(jì)算,有92%的把握認(rèn)為“前80回對于海棠花的關(guān)注程度大于后40回對于海棠花的關(guān)注程度”。根據(jù)該統(tǒng)計(jì)方法,韋博成先生再接再厲,對于《紅樓夢》中的若干重要的情景描述進(jìn)行量化,得到相應(yīng)的數(shù)據(jù)集。有了數(shù)據(jù)集就可以進(jìn)行數(shù)理統(tǒng)計(jì)分析,比較前80回與后40回在文風(fēng)上的差異,結(jié)果表明,《紅樓夢》前80回與后40回在某些重要的情景描述上確實(shí)有非常顯著的差異。研究者韋博成先生再三再四強(qiáng)調(diào),他只是從數(shù)據(jù)分析的角度指出兩者的差異,尚不能說明《紅樓夢》前80回與后40回作者的不同,因?yàn)椤斑@涉及到許多人文與社會方面的問題,這是數(shù)理統(tǒng)計(jì)方法所無能為力的!
本數(shù)據(jù)分析的目的:用數(shù)理統(tǒng)計(jì)的方法(具體來說是兩個(gè)獨(dú)立二項(xiàng)總體等價(jià)性檢驗(yàn))來分析《紅樓夢》前80回與后40回在幾個(gè)重要的情景指標(biāo)(包括飲食描寫、醫(yī)藥描寫、詩詞描寫、花卉描寫、樹木描寫,這里“描寫”主要指出現(xiàn)的頻率)的差異,并據(jù)此反映的文風(fēng)來判斷《紅樓夢》前后兩大部分的差異的顯著性。至于這種顯著性是否能推導(dǎo)出作者的不同,并不是本研究的目的,說白了,本數(shù)據(jù)分析研究只是數(shù)學(xué)愛好者借助自己對數(shù)學(xué)的愛好,表達(dá)對生活的有趣看法,娛自己娛他人,僅此而已,讀者不應(yīng)求全責(zé)備!
本數(shù)據(jù)分析的數(shù)據(jù)準(zhǔn)備:研究時(shí)收集的各個(gè)情景指標(biāo)的數(shù)據(jù),所采用的《紅樓夢》書稿來自北極星書庫,研究者將十回放一個(gè)文件,共生成12個(gè)word文件。對于書稿中有關(guān)花卉、樹木、飲食、醫(yī)藥、詩詞等方面的內(nèi)容,采用人工查閱與關(guān)鍵詞搜索相結(jié)合的方法,以人工查閱為主,最后列表給出每一回涉及的上述五個(gè)指標(biāo)的出現(xiàn)頻數(shù)。另外,本研究特別注意“偽數(shù)據(jù)”的刪除。比如統(tǒng)計(jì)作者對于花卉的描述頻數(shù),但是書中也有一些“偽數(shù)據(jù)”(雖然也是花卉,但是與情景無關(guān),比如梅花糕、桃花廟、海棠紅的棉襖等等,這些所謂的花卉并不是本研究所要記錄的,所以是“偽數(shù)據(jù)”,這些數(shù)據(jù)是不計(jì)入本研究統(tǒng)計(jì)資料的。
分析思路:在《紅樓夢》中,對于許多情景都是有非常深入的刻畫和描寫的,比如飲食描寫,全書有40余回涉及到飲食文化的方方面面。本研究不考慮人文社會方面的問題,致力于數(shù)據(jù)分析統(tǒng)計(jì),應(yīng)用數(shù)理統(tǒng)計(jì)方法研究前80回和后40回的文風(fēng)上的差異。以飲食為例,《紅樓夢》前80回有34回涉及飲食方面的描寫,后40回有8回涉及飲食描寫,根據(jù)這個(gè)數(shù)據(jù),作者考慮以下等價(jià)性假設(shè)檢驗(yàn)問題。原假設(shè)H0:“前80回與后40回對于飲食描寫的關(guān)注程度相同!; 對立假設(shè)H1:“前80回對于飲食描寫的關(guān)注程度大于后40回對飲食描寫的關(guān)注程度! 通過Fisher精確條件檢驗(yàn)或者漸進(jìn)正態(tài)檢驗(yàn),可以發(fā)現(xiàn)上述哪個(gè)假設(shè)更加有理由有把握是真的。
分析的結(jié)論:研究表明,飲食和花卉的顯著性最高,即有充分的理由(99%)認(rèn)為,前80回與后40回在飲食與花卉的描述上有明顯的差異,其判錯(cuò)的概率不到1%;對于醫(yī)藥、樹木、這兩個(gè)指標(biāo),有90%的把握認(rèn)為,前80回與后40回在這些指標(biāo)的描述上是有差異的;不過,對于詩詞的描述,并沒有充分的理由發(fā)現(xiàn)前80回與后40回的差異。
[數(shù)據(jù)挖掘分析《紅樓夢》]相關(guān)文章:
【數(shù)據(jù)挖掘分析《紅樓夢》】相關(guān)文章:
銷售數(shù)據(jù)的分析方法07-25
大數(shù)據(jù)分析07-20
數(shù)據(jù)分析報(bào)告07-28
大數(shù)據(jù)分析07-25
多維數(shù)據(jù)分析方法04-07
數(shù)據(jù)分析簡歷模板02-17