我們正處在大數據時代,大數據不僅能創造出大量的工作崗位,大數據也在推動著整個科技領域向前發展,包括人工智能領域的研究也需要借助于大數據,大數據的應用也是多領域的,包括醫療、金融、出行、教育等等,所以大數據不等于隱私,大數據也并不是通過獲取個人隱私而牟利。
1、個人怎樣獲取大數據?
謝謝邀請!大數據的數據來源主要有三個渠道,分別是物聯網系統、傳統信息處理系統以及互聯網應用(Web和App),所以要想獲得大數據就要從這三個渠道來獲取。物聯網系統產生的數據占據著大數據中的重要比例,物聯網產生的數據多以非結構化數據為主,包括視頻、音頻、傳感數據等等,物聯網的應用領域眾多,比如工業物聯網、農業物聯網、車聯網、智慧城市等都會產生大量的數據,通常情況下這些數據的采集都是有嚴格要求的,是不能開放給個人的。
如果個人要想獲得這部分數據,一個比較可行的方案是跟數據采集者進行合作,比如做數據分析等業務,傳統信息系統涵蓋的領域非常廣泛,有政務系統、企業ERP、教育信息系統、醫療信息系統等等,傳統信息系統涵蓋的數據多以結構化數據為主,而且往往有較高的精確度和關聯關系,這部分數據的價值密度也是相對比較高的。但是傳統信息系統涵蓋的數據往往涉及到個人隱私、商業機密等內容,所以這部分內容通常是受到嚴密保護的,
隨著大數據技術的發展,業界對于政務系統的數據開放的呼聲越來越高,經過脫敏的數據往往并不會對個人隱私構成侵犯,所以未來某些政務系統的大數據會陸續開放出來?;ヂ摼W應用也是產生大數據的重要基礎之一,包括各種Web應用以及大量的App產品,這部分數據多以半結構化為主,數據內容也存在真假難辨的情況,但是由于這部分數據的價值密度相對還是比較高的,所以現在不少互聯網公司就是基于這些數據對用戶進行“畫像”,從而進行多維度的分類,
隨著這些互聯網產品采集的數據越來越多,用戶的“畫像”也會越來越清晰,大數據分析結果也會越來越準確。對于個人用戶來說,要想獲得這部分數據,有三個辦法,一個是自己開發互聯網應用,另一個是對目前的互聯網數據進行爬取,最后是與互聯網公司開展合作,這樣也能拿到一部分數據,雖然現在大數據相關技術已經開始逐漸落地,很多傳統信息系統之間也形成了互聯互通,但是數據流通依然有大量的環節需要打通,一定程度上的“數據孤島”現象依然存在。
2、都說現在是大數據時代,那么如何獲取自己想要的數據呢?
隨著大數據的不斷發展,數據的價值得到了越來越多的關注,要想充分利用大數據,首先需要有數據來源,因此信息采集就成為了一個非常重要的環節,通常情況下,采集信息有以下幾個渠道:第一:傳統信息系統。傳統信息系統采集的信息往往具有較高的價值,一方面原因是傳統信息系統采集的往往是結構化數據,易于統計和分析,另一方面原因是傳統信息系統采集的數據往往是比較重要的數據,對后續的數據分析有重要的參考價值,
傳統信息系統包含的內容比較廣泛,比如常見的ERP系統。對于企業來說,傳統信息系統的建設應該是信息化建設的第一步,第二:Web平臺。信息來源的另一個重要渠道是各種Web平臺,隨著Web應用的普及,尤其是Web2.0的普及應用之后,整個Web系統產生了大量的數據,這些數據也是大數據系統的重要數據來源之一,
Web系統的數據具備幾個典型的特點,比如數量大、結構多樣性、真假難辨等等,這就需要通過數據分析來進一步體現其價值了。第三:物聯網系統,物聯網與大數據的關系非常緊密,物聯網系統的普及應用是產生大數據的重要原因之一,大數據的大部分數據來源就是物聯網系統。通常情況下,物聯網系統有五層結構,分別是設備、網絡、平臺、分析處理和服務應用,設備往往是數據的來源,
與傳統信息系統和Web系統不同,物聯網的數據大部分都是非結構化數據和半結構化數據,要想對其進行分析需要采用特定的處理方式,比較常見的處理方式包括批處理和流處理。批處理比較常見的平臺包括Hadoop和Spark,而流處理通常采用SparkStreaming、Storm等,除了以上幾個比較常見的信息采集渠道之外,通過線下活動進行信息采集也是一種獲取信息的手段和方式。