Chrome Semalt Expert的Web刮板教程

如果您使用的是Google Chrome瀏覽器,則瀏覽器有一個擴展程序,可以幫助您抓取網頁。它被稱為“ Scrapper”,可以毫無問題地加以利用。報廢者將協助抓取網站內容並將結果上傳到Google文檔。

如何使用Scraper擴展程序來抓取網站?

1。在Google Chrome瀏覽器中選擇Chrome網上應用店;

2。在擴展程序中,搜索“ Scrapper”;

3。第一個搜索結果是名為“ Scrapper”的擴展名;

4。選擇列為“添加到Chrome”的按鈕;

5。返回英國國會議員名單;

6。單擊以下鏈接;

7。現在尋找一張MP並確保已標記該條目;

8。右鍵單擊以選擇“抓取相似...”選項;

9。刮板控制台將在另一個窗口中彈出。

10。在抓取器控制台中查看抓取的內容;

11。為確保內容另存為Google Spreadsheet,請選擇“保存到Google文檔...”

擴展抓取

堅持此食譜之前,了解HTML的基礎非常有用。例如,您可以通過鏈接

讓我們想像一下,我們對由意大利著名女演員Asia Argento主演的所有電影都感興趣。

1。 IMDB中有非常詳細的參與者檔案。亞洲Argento網站是:http://www.imdb.com/name/nm0000782/;

2。在這裡,您可以查看女演員的所有角色。讓我們開始廢棄我們感興趣的信息;

3。嘗試按照上面描述的方式抓取它;

4。您會看到列表有些失真。這是由於以下事實:這裡的列表可以採用不同的結構;

5。前往刮板控制台。左上角,您會看到一個小框,上面寫著XPath;

6。 Xpath是一種查詢語言,適用於XML和HTML;

7。 XPath可以幫助您找到感興趣的頁面部分。第二件事是找到一個適當的元素並為其編寫XPath;

8。現在讓我們安排桌子;

9。您會看到現有的XPath具有“ // div [3]/div [3]/div [2]/div”;

10。 XPath通知系統查看HTML文檔,然後選擇第三個元素,然後選擇第二個元素,然後選擇所有元素;

11。但是,我們希望將數據分開;

12。利用控制台中的column部分進行抓取操作以完成此操作;

13。首先,找到標題–。使用Inspect Element查看標題;

14。檢查標籤內的標題。將標籤添加到XPath;

15。該表達式似乎可以正常運行,因此請使其成為我們的第一列;

16。在“列”部分中,將第一列的名稱替換為“標題”;

17。向其中添加XPath;

18。在列部分中,XPath是相對的,這意味著“ ./b”將選擇元素

19。在標題列的XPath中,添加“ ./b”並選擇“抓取”;

20。現在,讓我們繼續前進一年。可以在一個跨度內找到年份;

21。通過選擇標題列旁邊的小加號來創建新列;

22。使用XPath“ ./span”為“ year”創建一列;

23。單擊刮擦並查看如何添加年份;

24。完成!