從網頁、圖像或掃描件中快速提取數據的三個方法

Print More

English

圖: Shutterstock

歡迎閱讀 GIJN 工具箱,在這個欄目中我們會介紹調查記者最喜歡使用的工具和一些技巧。在這篇文章中,我們將介紹從文件中提取數據的三種免費易用的解決方案,這些方法在不久前舉行的 IRE22 上獲得了參會記者的一致好評。

當記者獲得調查所需的數據時,往往面臨第二個問題,就是如何選擇和提取這些數據,以便將它們放入電子表格中進行處理。對於許多小型編輯部來說,人工輸入、高級編程和昂貴的商業 OCR(光學字符識別)都是不太現實的選項。

IRE22 logo

更重要的是,在IRE22上,幾位資深記者指出,他們看到以非結構化的“死格式”(如掃描文件)發布的公共文件數量增加,一些政府機構故意使用這樣的格式來增加記者報道的負擔。

面對這樣的挑戰,許多機構都會指導記者通過檢查網頁獲得他們想要的數據,但這需要進行很多次複製和粘貼,並手動點擊許多標籤頁,才能收集到較為完整的數據。

“我提交了大量的公共記錄請求,但能以我要求的格式獲得的文件或數據的情況異常罕見,”《今日美國》的調查記者 Kenny Jacoby 說,他在會上介紹了幾個PDF工具。“有時,給你文件的機構似乎故意要讓你的生活變得更困難——他們會把PDF中的文字剝離出來,或者在發送之前把文件做成掃描件,或者數據以非結構化的格式儲存——例如沒有列和行。這些障礙真的會很拖累我們,所以擁有處理這些障礙的工具非常重要。”

Google Pinpoint

2020年,GIJN 是最早公布 Google 記者工作室(Google Journalist Studio)新推出的人工智能文檔解析工具的機構之一,它的名字叫做 Pinpoint,這是一個帶有高級 OCR 功能的文檔搜索引擎,你可以通過它快速搜索大量的文件和圖像。Jacoby 說,Pinpoint 已經發展成為一個免費的數字工具,便於專業記者使用,這要部分歸功於開發團隊中的調查記者們。

Pinpoint 目前包括了以下功能:

  • 如果你搜索一個單一關鍵詞,比如“教師”,它不僅會在你上傳的研究文件中找到這個詞,而且還會突出與此相關的詞,比如“老師”、“校園”、“教授”等;它還能找到搜索詞的時態變化;目前它支持七種語言,包括葡萄牙語、西班牙語、法語和波蘭語;並且,你能用減號排除不需要的關鍵詞。

  • 你可以批量上傳 PDF 掃描件,它可以迅速將它們轉換為“活”的,可搜索、可進行複製粘貼操作的文本文件,它甚至還能識別豎排的文字。

  • 它不僅可以識別和翻譯圖像中的標牌或塗鴉,還可以複製圖像背景中牌匾或告示牌上的長段小字。

  • Jacoby 說,Pinpoint 的音頻和視頻轉錄功能也非常先進,以至於他使用免費的 Pinpoint,而不是像 Trint 或 Otter 這樣的付費轉錄工具。他說,Pinpoint 雖然不像 Trint、Otter 那樣可以識別不同的說話人,但它可以識別對話中的中斷和聲音拐點,你只要點擊文本中的某一點,就可以聽到那個部分的聲音。

Jacoby 說,現在免費版的 Pinpoint 功能就已經很足夠,而且還可以向 Google 申請大型項目的額外存儲空間。

“你需要得到批准才能使用它,但是當我和我的妻子——她也是一名記者,在註冊的時候,我們幾乎立刻就得到了批准,”他指出:“你可能需要一個工作電子郵件地址,但要獲得使用權限並不難,那裡的團隊反應非常迅速。”

缺點是什麼?Pinpoint 是一項完全在線的服務。“這就意味着你必須聯網才能使用,而且你需要把文件上傳到 Google 的服務器上,如果 Google 受到了法庭的傳喚,你的文件可能被翻出來;另外,它不允許你下載 OCR 文件的副本,它們只保存在 Pinpoint 上,你只能把這些文本複製出來,但它卻有着可能業內最好的 OCR。”

參加 IRE22 的記者們驚奇地發現,免費的 Pinpoint 的光學字符識別(OCR)功能強大到足以閱讀和轉照片中藍色傳記牌上的文字那樣小的文本。圖: Kenny Jacoby

從網頁提取數據

正如 ProPublica 的 Craig Silverman 最近為 GIJN 所展示的那樣:任何網站背後的源代碼都為調查記者提供了大量的挖掘空間。雖然網頁源代碼讓非編程人員望而生畏,但其實除了 Control+F 或 Command+F 外,你不需要任何技能來找到你需要的資源。

在 IRE22 上,自由撰稿人 Samantha Sunne 展示了如何透過網頁源代碼來抓取網站上的長表單或特定數據項,並在幾秒鐘內將所有數據以你需要的格式填充到電子表格中。這個方法涉及到一個公式,用於指示 Google Sheet 從其左上角第一個方框中填入網頁中提取所需要的源代碼。

事實上,你根本不需要看任何代碼,就可以從任意一個網站上提取一個格式良好的數據表。只要遵循這些步驟就可以了:

要從某個網頁中導入一個單一數據表,你只需在 Google Sheet 中鍵入以下公式: =IMPORTHTML(“URL”, “table”) 如果這些數據被格式化為一個列表,嘗試用 “list “代替 “table如果你想要,例如頁面上的第二個列表,嘗試在逗號和空格後添加數字2,像這樣: =IMPORTHTML(“URL”, “list”, 2)

當我們嘗試用這個方法將美國聯邦存款保險公司網站上564家倒閉銀行的資料導入表格時,整個過程只花了不到15秒。記得要準確使用公式所需的標點符號,包括URL後面的逗號,以及括號中兩個項目周圍的引號。值得一提的是,網站數據的更新也會自動出現在 Google Sheet 中,因此你不必在調查過程中不斷翻查網頁,除非你禁用了實時更新的功能。

儘管如此,Sunne 強調,對於記者來說,某種程度上熟悉 html 語言也是很重要的,這樣就可以了解計算機是如何包裝在頁面上看到的數據,以便更容易地處理格式不完備的數據,以及更深入地挖掘更高級的公式。

要查看網頁源代碼,只需右擊網站上的任何空白處,然後點擊“顯示網頁源代碼”就可以。Sunne 說,一般你在網頁看到的任何文字都會出現在網頁源代碼中,所以你可以簡單地用 Ctrl+F 在網頁源代碼中查找網頁內的文字,看看它的前後被標記了什麼樣的標籤,之後再在公式中加入這些標籤試試。

“雖然它很有用,但 ImportHTML 公式只能拉入表格和列表,但 ImportXML 公式則可以拉入任何 html 元素,”Sunne 說:“它們看起來非常相似。”下面是一則演示。

要導入網頁上的特定數據元素,比如某一行文字,或只導入粗體字、標題,可以嘗試用這樣的公式(以數據的二級標題為例):=IMPORTXML(“URL”, “//h2”),或是這樣(表格中的行)。=IMPORTXML(“URL”, “//table/tr”)

你可以在 html 常用詞典中找到許多常用的 html 元素,如”//h2″(二級標題)和”/tr”(表格中的行),。但 Sunne 建議記者只需注意關注元素周圍的標籤,並找出關鍵的專業術語標籤,以幫助完善他們的下一次數據導入。為了實踐,請嘗試在大型維基百科網站上使用這兩種數據搜刮技術,這些網站通常有幾個數據列表和表格。

用 Tesseract 和 ImageMagick 安全抓取離線數據

《今日美國》(USA Today)的 Kenny Jacoby 說,如果輸入數據的質量足夠好,一個名為 Tesseract 的開源OCR引擎為敏感文件以及龐大的檔案提供了一個很好的提取解決方案。值得注意的是,它能識別100多種語言,包括希伯來語或阿拉伯語的從右到左的書寫方式。

Tesseract 將沒有文本層的圖像轉換為可選擇和可搜索的 PDF,Jacoby說,這個工具在將大批量的“平面”文件轉換為可複製粘貼的文本方面特彆強大,但在此之前,記者必須先將 PDF 文件轉換為高分辨率的圖像,而他推薦了開源的 ImageMagick 工具,然後,再將這些圖像傳入 Tesseract 以獲得轉換過的數據。

“它的OCR沒有 Pinpoint 那麼好,但也相當不錯,”Jacoby 說。“但它一個很大的好處是它是離線的——你可以在本地、在任何終端上完成所有事情,所以它很適合敏感資料。而且它的批量轉換功能真的很好用。”

他補充說:“你可能不得不提高圖像的質量或對比度,但有了 ImageMagick,你可以方便提升圖像的質量。”

此外,Jacoby 還推薦了《華爾街日報》調查記者 Chad Day 關於 Tesseract 和 ImageMagick 工具的詳細指南,這份指南可以在 Github 上找到

儘管 Tesseract 解決方案確實需要一些“中級”的編程技能,但 Jacoby 強調說,它可以是一個一次性的方案——如果你懂得使用命令行,就可以事先設置好程序,並為記者提供兩行簡短的代碼,然後他們就可以在每次數據提取中都插入這些代碼。為了提取以 PDF 格式儲存的表格,Jacoby 還推薦了 Tabula 這個應用,它一個是由 OpenNews 和 ProPublica 的記者們創建的開源工具。他解釋說:“它基本上是把數據表從 PDF 中提取出來,並把它們匯入到電子表格中。”

Tabula 還允許你在的表格周圍簡單地畫一個框,來提取想要的數據,而且它還可以自動檢測文件中的表格——包括那些沒有邊框的表格。而且 Tabula 對 Tesseract 創建的文本文件轉換效果很好。Jacoby 還強調,Tabula 也是離線的,所以它也可以很好地保護隱私。


Rowan-Philp-140x140Rowan Philp 是全球深度報道網的記者。他曾是南非《星期天時報》(Sunday Times)的首席記者。作為一名駐外特派員,他報道過全球20多國的新聞、政治、貪腐和衝突事件

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註