實用帖:網絡搜索工具&調查技巧分享

Print More

編者按:

book-cover2《調查報道信息核實手冊》(Verification Handbook for Investigative Reporting)是一本有關網絡搜索和調查技巧的新鮮實用指南,指導人們如何在網絡上利用UGC(user-generated content, 即用戶生產的內容)和開源信息進行搜索和調查。這本書由總部設於荷蘭的GIJN成員組織“歐洲新聞中心”(European Journalism Centre)出版。該指南共有10章,均可免費下載。我們很高興獲得授權轉載並編譯了一些章節:下文是本書的第三章,由網絡搜索專家Paul Myers編寫。


搜索引擎是我們常用的“開源”搜索工具中最重要的部分之一。結合社交網絡,域名查找,以及更傳統的搜索方式比如報紙和通訊錄查找等,有效的網頁搜索將會幫你找到調查過程中至關重要的信息。

很多人覺得搜索引擎常常帶來令人失望的查找結果,信息的來源也並不可靠。其實,只要掌握一些小竅門,就能將搜索結果限定在可以信任的站點中。同樣的技巧也適用於社交網絡或其它信息來源中搜索並定位人:只要你理解如何從海量信息中抓取你所需要的,運用一點點搜索策略,就能大大提升搜索結果。

這一章節中我們將聚焦以下三方面的網上調查技巧:

  1. 網頁搜索
  2. 網上找人
  3. 確認域名的主人

 


1) 有效的網頁搜索

谷歌之類的搜索引擎其實並不知道它們幫你找出來的網頁是關於什麼內容的。它們知道的是,這些頁面上出現了哪些詞。所以,要有效利用搜索引擎,你需要找出目標網頁中應該會有的關鍵詞。

因此,明智地選擇你的檢索詞是第一步。值得注意的是,每一個你添加到檢索詞中的字都會把搜索結果進一步縮窄——搜索引擎將去除不包含所選關鍵詞的頁面。

有些詞是你想找的每個頁面上都有的。還有一些詞未必會出現在目標頁面中——盡量避免這類比較主觀的關鍵詞,因為它們可能會將有用的頁面從搜索結果中去掉。

 

要點:使用高級檢索語法

大部分搜索引擎都有這類“隱蔽功能”,助你鎖定搜索範圍,改善搜索結果。

 

技巧1:非必需關鍵詞(Optional keywords

如果你沒有一個特別確定的關鍵詞,你可以嵌入一些可能的關鍵詞,並使它們不損壞結果的完整性。

舉個例子:你想查找有關德克薩斯州海洛因使用情況的網頁,但它們不一定都含有“德克薩斯”這一關鍵詞,有些頁面可能只會提到德州不同城市的名字。

技巧來了:你可以用一個大寫的“OR”將這些城市名分開,使它們成為檢索詞中的“非必需關鍵詞”,如下圖所示:

2.1

你也可以用這個技巧通過不同名稱或拼寫搜索同一個公司、機構或個人,如搜索“伊斯蘭國”(ISIS / Isalamic State):

2.2

 

技巧2:利用域名搜索(Search by domain

如果你想集中查找一個特定網站上的相關內容,可以使用的高級搜索語法是在“site:”後面輸入網站域名。

比如,你只想查找Twitter上的相關結果,那麼在關鍵詞後輸入“site:twitter.com”即可,如下圖所示:

2.3

如果想在Twitter之外加上Facebook的相關結果,只要再用上“OR”就可以搞定,如下圖所示:

2.4

這個技巧也可以用來集中搜索某個特定公司的網站。谷歌將只會從該站點返回結果。

你還可以用這個技巧來搜索政府或者學術網站上的資源。當你所研究的國家中政府和高校網站使用特別域名類型時,這一招尤其有效。如下圖所示,搜索英國學術網站上的資料時,輸入“site:ac.uk”:

2.5

注意:搜索學術網站時,記得檢查一下你所找到的網頁是由某所高校、某位教授、還是某個學生編輯和維護的。具體的信源是誰,一向都很重要。

 

技巧3:搜索文件類型(Searching for file types

有些信息會以特定的文件格式類型出現。比如,數據出現的格式通常是Excel電子表格;專業製作的報告常以PDF文件的形式出現。

技巧來了:在“filetype:”後面加上目標文件類型的拓展名(如Excel表格的xls,Word文檔的docx,幻燈片的pptx等),就可以在搜索過程中鎖定某一特定格式的資料了。比如,搜索英國航空公司網站上(ba.com)PDF格式的年度報告(annual report),可搜索——”annual report” site:ba.com filetype:pdf,如下圖所示:

2.6


2) 找人

在網上找一些團體比較容易,但要找到一個特定的人可能就不那麼容易了。

要進行人肉搜索,了解關於這個人的更多資料,你可以從建立一個圍繞目標對象的檔案庫開始。這個檔案庫可能包括以下方面:

-ta的名字,請注意:

  • 名字可能有變體(比如你要找的人叫James,他會自稱“James,” “Jim,” “Jimmy” 還是“Jamie”?)
  • 注意名字的拼寫,尤其是外來名在羅馬字母中的寫法
  • 如果ta是已婚人士,名字是否有變?
  • ta有沒有中間名(middle name)或者首字母簽名(initial)?

-ta的居住地或者出生地

-ta的職業和工作單位

-ta的朋友和親屬的名字:它們可能會出現在社交網絡的朋友圈子或者關注人名單上

-ta的電話號碼:現在Facebook上是可以搜電話的,或者,谷歌搜出來的網頁上可能也找得到

-ta的社交網絡用戶名:這些名字通常在不同平台上具有一致性

-ta的電郵地址:你可以在Facebook上輸入電郵地址從而找出關聯賬戶;如果不知道電郵地址,但知道ta用的是什麼郵箱域名,那麼像email-format這樣的站點可以幫你猜一猜

-照片:如果ta的名字很大眾,有了照片就可以幫你準確找到那個對的人。

 

技能1 :Facebook(臉譜)高級搜索

 

Facebook剛推出的搜索工具非常棒,和以往不同的是,它能讓你通過一些新指標進行搜索。比如,我們第一次可以通過“別人贊過的帖子”來找人。你還可以在一些Facebook主頁上進行關鍵詞搜索。

遺憾的是,這個最新的關鍵詞搜索功能還沒有嵌入任何高級搜索過濾項,搜索範圍似乎也被局限在你所認識的人發的帖子,他們收藏的頁面,或者一些高度公開的公共頁面。

不過,用這個關鍵詞功能除了能搜到帖子,你還能搜到相關的人、頁面、照片、活動、地點、群,以及應用程序(apps),每一類的搜索結果各自呈現在可點擊的標籤頁上。

舉個例子:簡單的輸入“Chelsea”(切爾西),在“Posts”里會出現與之相關的頁面和發帖,如下圖所示:

2.7

“People”標籤頁則會顯示名字里含有Chelsea一詞的人,如下圖所示。和其他分類一樣,搜索結果的顯示順序是按照和你認識的人或你贊過的頁面之間的相關性由高到低進行排列的。

2.8

“Photos”標籤頁會顯示與Chelsea一詞有關的圖片,可能是一個名叫Chelsea Clinton的人,可能是切爾西足球俱樂部(Chelsea Football Club),也可能是你的朋友在倫敦切爾西區(Chelsea district of London)聚會的照片。搜索結果如果不是你認識的人發布的,就必須是查看權限被設為“公開”的圖片。

2.9

Facebook搜索功能對於調查報道的真正價值,在你有目的地進行搜索時體現得更明顯。

舉個例子:如果你想調查在英國的極端組織與足球之間的聯繫,可能會去搜給英國防禦聯盟(The English Defence League)和切爾西足球俱樂部(Chelsea Football Club)都點過“贊”的人。記得點擊“People”這一標籤來顯示搜索結果,如下圖:

2.10

這個搜索工具剛上線不久,Facebook還在做改善,你可能得在搜索時多嘗試一些關鍵詞的組合,即便如此,你的耐心會是值得的。

Facebook還允許你添加各種修飾詞和過濾項來進一步篩選你的搜索結果。比如,你可以限定目標人物的婚姻狀況,性別,宗教信仰,政治取向,贊過的頁面,參加的群組,居住的區域等。你也可以通過他們在哪裡讀過書、做什麼工作、在哪間公司上班等條件進行篩選。你甚至可以找到上傳的照片中某個人的留言。你可以通過姓名找到這個人,也可以找到標註過他/她的相片。你可以找出參加過某個特定活動或者去過某個特定地點的人。

再者,你還可以把所有這些因素結合在一起進行複雜精細的搜索,所得結果也許會超出想象。話雖這麼說,用谷歌之類的搜索引擎進行特定站點搜索(如第一部分所講,在搜索時輸入“site:facebook.com”),也有可能得到更好的結果。

 

技能2: Twitter(推特)高級搜索

 

很多其它社交網絡都有“高級搜索”功能,它們通常比谷歌等搜索引擎僅靠“頁面所含關鍵詞”搜索而來的結果要強大得多。

比如,推特的高級搜索功能可以讓你追蹤到用戶之間的互動對話,並且在搜索中加入時間範圍的限制,從而精鍊搜索結果。比如,如果你想找出所有奧巴馬推特賬戶上提到《洛杉磯時報》的推文,可以在高級搜索功能中進行設置,如下圖所示:

2.11

Twitter也使得第三方網站能利用其數據產生更多可能性。比如,Followerwonk這個網站能讓你搜索Twitter中的用戶介紹並比較它們;Topsy則有一個強大的推文(tweets)庫,同時還有其它一些特別功能。

 

技能3: LinkedIn(領英)高級搜索

 

LinkedIn能讓你搜索很多不同方面的信息,包括調查對象所在的城市,上過的學校,目前所在公司,曾經工作過的機構和資歷等。

你必須登錄LinkedIn後才能使用高級搜索功能,所以,記得首先檢查一下你的隱私設置(privacy settings)——你也不想在調查對象的頁面上留下腳印吧!

登入LinkedIn後,點擊搜索框旁邊的鏈接就可以進入“高級搜索”功能,如下圖所示。記得在“關係”一欄勾選“3rd + Everyone Else”,這一步是確保你的搜索範圍擴大到所有人;否則,系統搜索的人群將只包括你的好友以及他們的朋友。

2.12

LinkedIn最初的定位是職場人士的社交網絡。它家的高級搜索功能似乎主要是為招聘人員設計,但這個功能對調查人員和記者仍然十分有用。在這個平台里,個人數據分布在清晰界定的各項主題框中,所以要鎖定每一項特定條件進行搜索比較容易。

2.13

除了輸入常規關鍵詞和姓名以外,你還可以輸入地點、所在機構和曾經工作過的機構、畢業院校以及其它元素進行搜索。如果你使用的是領英的高級版本(premium service),還能再進一步限定公司大小和具體職務。

 

其它選擇

 

類似GeofeediaEchosec的站點讓你能夠找從固定地點發出的推文、Facebook帖子、YouTube視頻、Flickr和Instagram照片。框出一片區域,或者指定一棟大樓,它們就能顯示此地所產生的社交媒體活動。Geosocialfootprint.com這個網站可以把特定推特用戶的活動顯示到地圖上(前提是這些用戶允許在他們的賬號中使用“位置”導航)。

除此以外,還有像PiplSpokeo這樣的“人肉搜索”專門工具可以幫你在各個數據庫、社交網絡平台,甚至交友網站上搜索目標,替你省卻不少辛苦的跑腿活兒。只要輸入一個名字、電郵地址、或者用戶名,搜索工具就會幫你搞定剩下的事情。

另一個選擇是使用Storyful的multisearch(多搜索)。這個工具是Chrome瀏覽器上的插件,能讓你輸入一個搜索詞條,比如一個用戶名,然後從Twitter,Instagram,YouTube,Tumblr和Spokeo上得到結果。每個站點的有關結果都會在一個新的標籤頁中打開。

 

技能4: 利用頭像照片進行搜索

人們通常習慣用同一張照片作為不同社交網絡平台上的頭像。既然如此,我們可以倒過來利用圖片搜索定位這張頭像所關聯的所有網絡賬號。TinEyeGoogle Images這類站點可以進行這樣的圖片搜索,下圖是Google Images中的示例:

2.14


3)確認域名所有者

許多記者都曾被釣魚網站愚弄過。現如今,任何人都可以輕易買到一個以.com,.net或者.org結尾的站點,因此,我們不能只看表面值(face value)。一個看上去製作精良,域名聽上去也很靠譜的網站仍然有可能是個政治騙局、虛假機構,或者技術宅的惡作劇。

檢查域名可以做到一定程度的質量控制。谷歌一下,看看其他人關於這個網站說過什麼。一個whois查詢也很關鍵(註:whois是一個用來查詢域名是否已經被註冊,以及註冊域名的詳細信息的數據庫)。DomainTools.com是能夠進行whois查詢的眾多網站之一,它會顯示購買這個域名的網站所有者的註冊信息。

舉個例子,世界貿易組織(WTO)的前身是《關稅與貿易總協定》(GATT)。在網絡上,你會發現有兩個代表WTO的站點。一個是wto.org(真身),一個是gatt.org(假冒)。仔細看看這個域名為gatt.org的網站,大部分研究者應該能感覺到有問題,但是,也有不少記者上過當。

一個whois查詢能夠顯示域名的詳細註冊信息,從而打消關於真偽的疑問。Wto.org的註冊方是“聯合國國際計算機中心”(International Computing Centre of the United Nations),而Gatt.org的註冊者則是臭名昭著的惡作劇組合the Yes Man成員之一“Andy Bichlbaum”,見下圖:

2.15
Whois查詢並非驗證網站真偽的萬靈丹。很多人會巧妙地在域名註冊表格上做假,有些人則會使用類似Domains by Proxy這樣的服務進行匿名。但是,若將whois查詢和其它域名及IP地址查詢工具結合起來,就能形成一個鑒別信源可靠性的有力武器。


作者簡介

PaulMyersPaul Myers是BBC的互聯網研究專家。他也運營一間名叫“互聯網搜索診所”(The Internet Research Clinic)的網站,致力於引導記者們找到最好的網絡搜索鏈接、應用工具和資源。他在BBC學院(BBC Academy)負責的培訓課程包括網上調查、數據新聞、社交媒體、統計學,以及網頁設計。Paul也曾為《衛報》、《每日電訊報》、《泰晤士報》、CNN、世界銀行、聯合國開發計劃署等機構的工作人員做過培訓。

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註