Déanann Semalt mionléiriú ar URLitor - Uirlis Scrapála Gréasáin agus Eastóscadh Sonraí an-Fhionnuar

Is uirlis nua ach éifeachtach scrapála gréasáin agus eastóscadh sonraí é URLitor. Chun URLitor a úsáid, níl le déanamh agat ach liosta de na URLanna uile ar mhaith leat a n-ábhar a scrabhadh ar líne sa teimpléad atá curtha ar fáil. Ansin ní mór duit an eilimint HTML a theastaíonn uait a bhaint as na leathanaigh ghréasáin a shonrú agus cliceáil ar an gcnaipe tíolactha. Tá sé chomh furasta sin. Leis an uirlis seo, ní gá duit cóip nó greamaigh a dhéanamh ón mbrabhsálaí níos mó.

Is teanga é xPath a úsáidtear chun faisnéis a chuardach i gcomhaid XML. Úsáideann sé nathanna áirithe chun tacair nóid nóid a roghnú i gcomhaid XML. Tá na nathanna a thuigeann XPath cosúil go leor leis na habairtí a úsáidtear le gnáthchomhaid nó cáipéisí ríomhaire.

Cé go n-úsáidtear XPath le go leor teangacha cláir, tógadh an uirlis seo d’úsáideoirí nach bhfuil aon eolas cláraithe acu. Mar sin, ní gá duit a bheith i do ríomhchláraitheoir chun úsáid a bhaint as. Leis an uirlis seo, is féidir leat sonraí a bhaint as roinnt leathanaigh HTML agus XML.

Ar mhaithe le simplíocht úsáide, rinneadh roinnt nathanna XPath a úsáidtear go minic a réamhshainiú i roghchlár anuas ionas nach mbeidh ar úsáideoirí ach aon cheann acu a roghnú ag brath ar a n-aidhm. Mar sin féin, tá saoirse ag úsáideoirí XPath a bhfuil an-taithí acu a gcuid nathanna saincheaptha a úsáid aon uair is mian leo.

Dearadh an uirlis le cumas 100 URL in aon seisiún scrapála amháin, agus tógann sé uasmhéid de 10 nathanna ag an am céanna. Is é sin le rá, féadann sé sonraí a scrabhadh ó 100 URL ar a mhéad ag an am.

Tá roinnt nathanna saincheaptha tábhachtacha XPath is féidir a mhodhnú nó a chur leo leagtha amach thíos:

1. // div [2] - Roghnaíonn an abairt seo an dara div ordlathach;

2. // link [@ rel = 'canonical'] / @ href - Roghnaíonn an abairt seo suíomh (tag) an chlib a úsáidtear chun an tréith rel a shocrú atá comhionann le canónach;

3. / html / head / meta [@ name = 'description'] / @ content - Úsáidtear an abairt seo chun ábhar a roghnú;

4. // * [@ class = 'class-name'] - Is féidir leat an slonn seo a úsáid chun gach gné le 'ainm ranga' a roghnú mar rang CSS;

5. // h2 | // title - Is féidir an abairt seo a úsáid chun an chéad H2 agus teideal an leathanaigh a roghnú;

6. // * [name () = 'h1' nó ainm () = 'teideal'] - Oibríonn an abairt seo díreach cosúil leis an gceann thuas. Mar sin féin, is fearr an abairt a chuirtear i láthair thuas ós rud é go bhfuil sé níos giorra;

7. // * [tá (@class, 'ordóg')] - Roghnaíonn an abairt seo gach eilimint a bhfuil aicme CSS aici agus tá 'ordóg' ann le haghaidh eastóscadh;

8. // parent :: * [text () = 'Fáilte'] - Roghnaíonn an abairt seo tuismitheoir aon eilimint a bhfuil an téacs 'Fáilte' air;

Is leagan Béite an uirlis seo agus d’fhéadfadh sé oibriú le roinnt earráidí fós. Mar sin féin, is uirlis iontach í fós d’úsáideoirí nach bhfuil mórán nó aon eolas cláraithe acu mar tá na nathanna a úsáidtear go minic réamhshainithe i roghchlár mar a luadh cheana.

mass gmail