網絡爬蟲漫天抓取消費者信息

  中國消費者報 中國消費網報道(記者胡軍)北京消費者付先生最近很鬱悶,自從自己更新了簽證信息、團購了北京出發的機票,就不斷接到各種營銷短信以及騷擾電話。“如果說是偶然,那就是睜眼說瞎話;如果說是有些機構泄露了我的個人隱私信息,我確實沒有證據。當然,也有一種可能,那就是網絡爬蟲所為,”對於自己的個人消費信息的泄露,從事網絡信息安全十餘年的付先生想到了三個泄露途徑:“管理部門不可能泄露;航空公司有泄露的可能,但有一定的風險和制約;網絡爬蟲卻沒有這些負擔,而且從技術上說可以從容實施。”

  那麼,網絡爬蟲到底是什麼?為什麼能從網絡上肆意抓取消費者各種信息呢?

  什麼是網絡爬蟲


林海燕   製圖

  網絡爬蟲,顧名思義,其實就是一種“自動化瀏覽網絡”的程序,按照一定的規則,自動抓取互聯網信息,比如網頁、各類文檔、圖片、音頻、視頻等,通過索引技術組織這些信息,根據需要快速地提供搜索結果等,是網絡搜索引擎收集網上信息的主要手段,也被稱為網頁蜘蛛或網絡機器人。

  具體來說,互聯網上的網頁或網站如同一個個信息節點,大量的網頁或網站通過超鏈接形成網狀結構。消費者在瀏覽網頁和點擊應用時,通過點擊網頁上的鏈接,從一個節點跳轉到下一個節點,自然會在網絡上留下痕迹。網絡爬蟲軟件程序,正是模擬了這一行為,只不過速度更快,跳轉的節點更全面,所以被形象地稱為網絡爬蟲或網絡蜘蛛。“網絡爬蟲無處不在,最早的搜索引擎,正是基於這一技術。但是,現在很多所謂的網絡數據公司,通過爬蟲技術,在網絡上肆無忌憚地抓取用戶在門戶網站、電信運營商、電商網站以及QQ、微信等等社交軟件上的行為軌跡,甚至包括銀行徵信報告、家庭水電氣消費在內的生活信息。”對於網絡爬蟲技術的發展與現狀,從事網絡軟件平台開發十餘年的山東青島某科技公司技術負責人崔先生並不陌生。

  他解釋道:“抓到消費者的網絡應用信息並不難,也不奇怪,關鍵看用來干什麼,正常進行宏觀的網絡行為研究沒有什麼問題,但是有些數據公司會進行所謂的二次開發或深度開發,將其分割成客戶需要的成百上千個維度來進行分析,然後變成具體的信息產品進行銷售。也就是說,很多所謂的大數據技術,就是讓消費者個人信息更容易被獲取,被形成產品銷售,然後被濫用。”

  據崔先生介紹,部分目的不良的數據公司通過網絡爬蟲獲取消費者數據信息的目的無非有兩個:一是把散佈於網絡上的複雜數據轉化為更容易被讀懂的信息,以便購買相關數據的客戶可以更好地使用;二是根據目標客戶的需求目標,制定多元化的分析維度,以適應客戶需求的多變性和複雜性。

  僅售3.8元的33頁精確信息

  去年底,網絡曝出南方都市報記者通過隨機檢索,在一家名為探知數據的科技公司僅花了3.8元就買到了事關個人隱私、長達33頁的詳細通訊信息報告,包括個人基本身份信息、近半年的通話記錄詳情、賬單消費、出行信息和人脈關係等,並有詳細的量化評分,信息精確度非常之高,出行信息準確定位到經緯度、門牌號的居住地址等。

  除此之外,該公司可提供的服務產品還包括電商、社保、公積金、央行和學信網,查詢結果五花八門,而且價格低得驚人:花費1元錢即可抓取的淘寶數據量最多為25頁訂單數據、京東近3年的消費數據……

  “抓取這些數據並不難,一是部分網站安全意識不夠,或者防範能力不足,二是部分網站睜隻眼閉隻眼,有意無意地放任不良數據公司去抓取,可以輕鬆抓取到每一個消費者使用過哪些地址網購,使用的頻率,消費類型和購買金額等,甚至可以根據用戶需要,列出消費類型,比如教育類佔比多少、娛樂類佔比多少、生活用品佔比多少,形成了一張消費價格區間和消費興趣和行為分布圖,”對於爬蟲技術的實現能力,目前仍在為部分數據公司提供爬蟲技術服務的北京某信息公司負責人郭先生並不隱瞞:“消費行為、消費歷史記錄、金融支付信息、賬戶金額等等,都能輕鬆實現,數據來源包括社交網站、網上銀行、網上營業廳、航空公司、12306等等,都可以設立多個維度的數據整合模型。任何一個消費者,只要消費信息被上傳到網絡上,或者在網上消費,從衣食住行到生活社交各個層面,均可以毫不費勁地被爬出來,根據需要,進行多維度分析。”

  泄露途徑無法溯源

  2017年6月1日起正式實施的《中華人民共和國網絡信息安全法》第二十二條明文規定,網絡產品、服務具有收集用戶信息功能的,其提供者應當向用戶明示並取得同意。第四十四條規定,任何個人和組織不得竊取或者以其他非法方式獲取個人信息,不得非法出售或者非法向他人提供個人信息。然而,在實際網絡應用中,上述法令並未得到認真落實。

  以電商網絡流行的“貨比三家”為例:很多電商平台都有自動調價功能,其實正是通過爬蟲程序掃描同類網站商品的價格,針對性地展開相應的調整,從而取得價格優勢,為銷量提供保證。“其實不少實時比價工具,技術背景就是爬蟲技術,利用網絡爬蟲獲取其他電商平台的同款商品的價格、促銷、評論等商品信息,”對於網絡爬蟲技術的實際應用,從事電商網絡平台和軟件開發多年的北京某網絡技術公司負責人吳先生直言不諱地告訴記者:“目前各家網絡平台都有自己的技術在用,十多年前就有了該自動比價模式,底層技術就是爬蟲。”

  據吳先生介紹,其實,在电子商務行業,使用爬蟲玩“貓捉老鼠”的遊戲,是一個公開的秘密。每個電商平台一方面希望阻止競爭對手抓取自己的網站,另一方面又想滲透對手的網站。儘管各大電商平台都擁有各類技術防範,但網絡爬蟲數量還是令人震驚。除了競爭對手外,更多來自越來越多湧現的數據公司,目的就是獲取消費者信息,形成產品進行銷售。

  “很多消費者可能接觸過一些類似的比價平台、聚合電商或返利平台等等,大體原理都是一樣的,消費者搜索一個商品或服務,平台就會自動把各大電商的商品放在一起供消費者選擇,其實就是爬蟲技術的應用。網絡爬蟲在為消費提供貨比三家等便利的同時,不知不覺就收集了消費者瀏覽記錄、消費記錄、家庭位置等等信息,形成數據報告用於銷售,方便商家進行有針對性的廣告投放等等,而且,消費者根本無從知曉個人信息的泄露渠道,無法追查。”

責任編輯:倪敏

【其他文章推薦】

※知名女星推薦!生薑洗髮乳,控油沐浴露,打造身體的新氣象

清爽沐浴乳,洗完不再"滑滑"的,身體不殘留添加物

民生頭條帶您來看更多頭條新聞

※合法板橋禮儀公司懶人包

※推薦手工刻印章專賣店

住宅用火災警報器裝對了嗎?