Кіраўніцтва Semalt па пашырэнні скрабка для Chrome

Каб любы бізнес выжываў і ў канчатковым выніку развіваўся, трэба апярэджваць канкурэнтаў і розныя рызыкі. Прыняцце рашэнняў на аснове аналітычных дадзеных - верны спосаб забыцца пра гэтыя праблемы. Такія дадзеныя могуць быць атрыманы з дапамогай збору дадзеных. Вось у чым лёгкае пашырэнне скрабка для Chrome: гэта не толькі палегчыць працэс збору дадзеных, але і зробіць магчымым вычышчаць хаду без складаных налад.

Як карыстацца скрабком

    1. Першае, што вам трэба зрабіць, гэта ўсталяваць пашырэнне, таму перайдзіце на старонку храмаванага храма, знайдзіце "скрабок" і націсніце "Дадаць у Chrome".

    2. Перайдзіце на вэб-сайт, з якога вы збіраецеся скрэбліваць дадзеныя , адзначце запіс, якая вас цікавіць, вылучыўшы яе. Пстрыкніце правай кнопкай мышы і выберыце ў меню, якое ўсплывае, выберыце "саскобіць падобнае".

    3. У гэтым выпадку запусціце асобнае акно кансолі скрабка. Тут вы ўбачыце спіс скрабаваных дадзеных .

    4. Каб захаваць кантэнт, націсніце кнопку "Захаваць у дакументах Google", гэта аўтаматычна экспартуе дадзеныя ў табліцу Google.

Пашыраны выскрабанне

У выпадку, калі вы плануеце выдаліць больш дадзеных, вы можаце скарыстацца ўдасканаленым падыходам. Звярніце ўвагу, працаваць з інструментам будзе значна прасцей, калі вы валодаеце некаторымі ведамі HTML. Выкажам здагадку, што вы хацелі выскрабаць дадзеныя з крыніцы, якая мае архіў на аснове дадзеных часовых радкоў. У такім выпадку, калі вы паспрабуеце апісаны вышэй спосаб, вы атрымаеце прыхаваныя дадзеныя.

Каб вырашыць гэтую праблему, вы можаце выкарыстоўваць мову запытаў HTML і XML, званую XPath. Што гэта робіць? XPath распазнае дадзеныя адносна розных элементаў, якія змяшчаюцца ў кожным выбары. Ніжэй прыведзена кіраўніцтва, як зрабіць гэта:

1. Перайдзіце да кансолі Scraper, злева злева вы заўважыце кнопку "XPath", націсніце на яе і прыступайце да зборкі пачатковай табліцы.

2. Вам трэба напісаць XPath для патрэбнага элемента. Бягучы XPath, які ўключае ў сябе ўсю інфармацыю, будзе адлюстроўвацца ў такім фармаце "// div [3] / div [3] / div [2] / div". Элементы <div> будуць распазнаны ў дакуменце HTML камп'ютэрам.

3. Каб аддзяліць распазнаныя дадзеныя, вы павінны выкарыстоўваць слупкі скрабкі. Каб зрабіць гэта, вам трэба шукаць розныя тыпы інфармацыі, якая ў вас ёсць. У залежнасці ад дадзеных, якія вы вычышчаеце, вы можаце мець назвы. Гэтыя назвы прысутнічаюць побач з кожным наборам дадзеных. Іх суправаджае тэг, у гэтым выпадку тэг <b>.

4. З дапамогай элемента праверкі знайдзіце і дадайце тэг <b> у свой XPath. Цяпер вы можаце пазначыць гэты першы слупок як "слупок загалоўкаў", бо ён будзе спісваць загалоўкі. Перайдзіце да стварэння розных XPaths для кожнага слупка, які вам патрэбны.

5. Націсніце на соскоб, і пашырэнне аўтаматычна збірае дадзеныя і арганізуе іх у розныя слупкі, якія вы ўсталявалі.