『統計 Versus資料探勘』之我見＠PMP達人－hyrlj0ricgdrk

口語翻譯

就以上的觀點，肥蝦以為，二者的重點在於因為資料的來曆與數目，因此有著理論上的差距。想一想現在正在進行的生齒普查，若是是普查獲得的現實資料，那就不用在基於受限於資料源，而應用機率與假定，進行統計的抽樣翻譯因此資料量與代表性就是二者學門間的差別地點。但在這要澄清的一點是，假如天成翻譯公司們是以台北市的所有人口普查資料來猜測全台地域的某些現況或趨向，這不管是就統計方法或是操縱資料探勘，在都有益用部份(樣本)來推測全部(母體)的問題翻譯固然，用台北市來推估台灣，就肥蝦認為，這其實是一個很差勁的體式格局，所導致的毛病是顯明可見的。

肥蝦不是一個專業的統計學家或者專研資料探勘的學者，是以一些設法其實不必然准確，但寫此文的目標只想拋磚引玉，順便也能確認自己的思惟與認知是否正確！

但是，假如把母體是放在特X屋的上月銷售狀態，然後想知道上月中最暢銷商品間的關係，若是我們礙於資料的取得本錢，是抽樣的取幾家分店的發賣資料；跟利用公司資料庫內存放所有分店的上月所有完全發賣明細資料，那在學理與方式上就應當有些不同。統計上需先假設或預設一些情境或認知，好比要抽取那幾家分店，那負責的人員可能會基於本身的經驗與常識，選擇以往月營收為全分店平均值的店面；但是資料探勘就沒有這個問題，反正我是處置所有分店的資料。假如在此環境下，有人用資料探勘出的趨向或規則，再佐以統計去驗證，那就彷佛都知道翻譯公司一家所有人的月收入後，再考慮用一家中父親的收入來驗證全家人的收入是不是准確！這在理論上跟實際上都是矛盾的。那假如是要預測下個月的環境是不是與上個月一樣，那不管上月的劃定規矩是從統計、或者資料探勘中得出，這都有不肯定性的問題翻譯

昨天在床上看論文第二章文獻商量要用的英文期刊，一時煩悶下就拿了本【科學人雜誌(第105期)】來看！此中有一篇短文「失之毫釐，差以千里」，講得是統計抽樣誤差的問題，內容是說美國在調查軍中同性戀的比例，因此進行軍中同性戀的查詢拜訪翻譯這直覺看起來彷佛沒有問題，可是卻會致使情形為真(異性戀)但被誤認為假(同性戀)的型一誤大於情況為假(同性戀)但被誤認為真(異性戀)的型二誤高的統計問題，就是所謂的非對稱性族群數量，或稱種別資料不服衡(class-imbalanced)的問題。一時之間倏忽想到曾在第132號數學傳佈季刊看到的一篇統計思惟文章，以及同學在上資料探勘之經常會詢問的問題－「統計跟資料探勘差在哪裡？」

是以肥蝦把統計跟資料探勘算作是，統計是先認知出特定規則再進行驗證；資料探勘是先找出所有可能，再行便可能中認知出法則。那至於是統計好，或是資料探勘好？那照舊取決於成本！你所要瞭解表象背後事實可能的效益與找出這事實可能成本間的比力！那為何是事實可能呢？因為不論是統計或是資料探勘，在絕大多半的情況下，仍是幾何有一點認知跟主觀的問題，除了天主以外沒人知道表象後的真正事實！目下當今在量子力學的架構中，可能天主也沒法事前確知事實的後果了。

【數學傳佈季刊】統計思惟乙文的作者為黃文璋傳授，任教於高雄大學運用數學系，是一個聲譽卓越、著作等身的統計專家。該文除具體申明統計的觀念之外，對於一些重要的概念更是旁徵博引一些文學典故，一文讀來有讓人不忍釋手之快翻譯文章一開首就引用了馬克吐溫的名言：「There are three kinds of lies: lies翻譯社 damned lies, and statistics.」(有三種類型的假話：謊言、可惡的謊言跟統計。)文中也申明統計能到達的感化：(1)在答應誤差下的機率保證。(2)許可誤差下的無罪推定。是以機率跟誤差是為統計學裏的兩大支柱，黃傳授並憑據統計學的六項要點─善用資訊、領會變異、相信機率、公道估計、無罪推定、紙上談兵─一一說明。本文可說是字字珠璣，要肥蝦寫出心得，真得就只能把文章照抄一遍了！

關於資料探勘這門較之統計，完全可說是一門新興學問的學門而言，肥蝦也只修過劉育津教員的一學期課程，所知其實很是有限！但照樣自言不慚的將自己的設法與心得佈鼓雷門一下翻譯資料探勘在維基百科中的诠釋為：「a branch of computer science and artificial intelligence, is theprocess of extracting patterns from data. Data mining is seen as anincreasingly important tool by modern business to transform data into businessintelligence giving an informational advantage.」這裡也僅僅是概要的申明它是計較機科學與人工聰明的一支，是一個從資料中萃取型態的程序翻譯在Jiawei Han，Micheline Kamber與Jian Pei所著【Data Mining: Concepts and Techniques】一書中說：「Simply stated, data mining refers to extracting or"mining" knowledge from large amounts of data.」意即從大量資估中萃取或挖掘出常識。

在修讀肥蝦的指點先生劉育津教授的資料探勘的講堂上，教員也引了Berry and Linoff於1997年所著的【DataMining Techniques: for Marketing, Sales翻譯社 and Customer Support】的詞句，渠等認為一般分析報告是供給了「後見之明」(hindsight)，統計闡發提拱了「先機」(foresight)，而資料探勘則供應了「洞察力」(insight) ，也就是資料探勘能看到事件中所隱藏的訊息翻譯但在經濟新潮社出書李弘元師長教師所翻譯日本岡嶋裕史所著的【從資估中挖金礦】一書中對於統計與資料探勘有一段概略離別的說明：「統計闡發的學問系統是在資料本錢很高的時代被創立的。那是一種測驗考試以最少的資料量，來索求世界的學問體系。反觀在資訊爆炸的此刻，資訊廉價且唾手可得翻譯以往不能或沒法看成闡發對象的資料都變得可以處置懲罰，也就是擴大了可處理對象的範圍，同時，闡發的深度也得以增添。」是以「資料探勘的本質不在於技巧的翻新，而在於準備資料的質與量上。」

由於資料探勘與統計在某些方式或名詞上特別很是接近，乃至溝通，因此常讓人容意混合。比如，維基百科上說的資料探勘一般包括四項工作：Clustering(猬集)，Classification(分類)，Regression(迴歸)，Associationrule learning(關聯)這四者在推論統計中也是常見的名詞；更甚者，在一些統計概念的介紹資猜中也把資料探勘置於統計學領域範疇以內。

本篇文章引用自此: http://mypaper.pchome.com.tw/pmpnumberone/post/1321787427有關各國語文翻譯公證的問題歡迎諮詢天成翻譯公司02-77260931

翻譯社

chavezk71hx

hyrlj0ricgdrk

chavezk71hx 發表在痞客邦留言(0) 人氣()

E-mail轉寄

hyrlj0ricgdrk

歡迎光臨chavezk71hx在痞客邦的小天地

『統計 Versus資料探勘』之我見＠PMP達人

歷史上的今天

留言列表

站方公告

活動快報

夏日必...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

POWERED BY