Semalt mütəxəssisi ilə İnternet Scraping

Veb yığımı, veb yığım kimi də tanınır, veb saytlardan məlumat çıxarmaq üçün istifadə olunan bir texnikadır. Veb yığma proqramı birbaşa HTTP və ya veb brauzerdən istifadə edərək bir vebə daxil ola bilər. Proses bir proqram istifadəçisi tərəfindən əl ilə həyata keçirilə bilsə də, texnika ümumiyyətlə veb tarama və ya bot istifadə edərək həyata keçirilən avtomatlaşdırılmış bir prosesi tələb edir.

Veb kazıma, strukturlaşdırılmış məlumatların araşdırılması və alınması üçün internetdən yerli bir verilənlər bazasına kopyalandığı bir müddətdir. Bu veb səhifəni əldə etmək və məzmununu çıxarmaq daxildir. Səhifənin məzmunu təhlil edilə, axtarış aparıla, yenidən qurulmuş və məlumatları yerli saxlama cihazına kopyalana bilər.

Veb səhifələr ümumiyyətlə XHTML və HTML kimi mətn əsaslı işarələmə dillərindən qurulmuşdur, hər ikisi də mətn şəklində faydalı məlumatların çoxunu ehtiva edir. Bununla birlikdə, bu veb saytların çoxu avtomatlaşdırılmış istifadə üçün deyil, son istifadəçilər üçün hazırlanmışdır. Bu, kazıma proqramının yaranmasının səbəbidir.

Effektiv veb kazıma üçün istifadə edilə bilən bir çox üsul var. Onlardan bəziləri aşağıda işlənib hazırlanmışdır:

1. İnsan surəti və yapışdırması

Zaman zaman, hətta ən yaxşı veb kazıma vasitəsi də, bir insanın əl ilə hazırlanmış surəti-yapışdırmasının düzgünlüyünü və səmərəliliyini əvəz edə bilməz. Bu, əsasən veb saytların maşın avtomatlaşdırmasının qarşısını almaq üçün maneələr qurduğu hallarda tətbiq olunur.

2. Mətn nümunəsinin uyğunluğu

Bu veb səhifələrdən məlumat çıxarmaq üçün istifadə olunan olduqca sadə, lakin güclü bir yanaşmadır. Bu UNIX grep əmrinə və ya verilmiş bir proqramlaşdırma dilinin adi bir ifadə vasitəsinə, məsələn, Python və ya Perl-yə əsaslana bilər.

3. HTTP Proqramlaşdırma

HTTP Proqramlaşdırma həm statik, həm də dinamik veb səhifələr üçün istifadə edilə bilər. Soket proqramlaşdırmadan istifadə edərkən məlumat HTTP sorğularını uzaq bir veb serverə göndərməklə əldə edilir.

4. HTML təhlil

Bir çox veb sayt, verilənlər bazası kimi əsas bir quruluş mənbəyindən dinamik olaraq yaradılan geniş səhifələr toplusuna sahibdir. Burada oxşar kateqoriyaya aid məlumatlar oxşar səhifələrə kodlanır. HTML-ni təhlil edərkən bir proqram ümumiyyətlə müəyyən bir məlumat mənbəyində belə bir şablonu aşkarlayır, məzmununu götürür və sonra bağlama adı verilən ortaq formaya çevirir.

5. DOM analizi

Bu texnikada müştəri tərəfi skriptinin yaratdığı dinamik məzmunu əldə etmək üçün bir proqram, məsələn Mozilla Firefox və ya Internet Explorer kimi tam hüquqlu bir veb brauzerdə yer alır. Bu brauzerlər, səhifələrin hissələrini çıxara biləcək proqramlardan asılı olaraq veb səhifələri DOM ağacına da təhlil edə bilər.

6. Semantik Annotasiya Tanıması

Qırmaq istədiyiniz səhifələr, müəyyən məlumat parçaları tapmaq üçün istifadə edilə bilən semantik işarələr və qeydlər və ya metadata daxil ola bilər. Bu elanlar səhifələrə yapışdırılıbsa, bu texnikaya DOM analizinin xüsusi bir işi kimi baxıla bilər. Bu qeydlər də sintaktik bir təbəqə şəklində təşkil oluna bilər, sonra veb səhifələrdən ayrı saxlanılır və idarə olunur. Scrapers səhifələrin qırılmasından əvvəl məlumat sxemini və bu təbəqədən əmrləri əldə etməyə imkan verir.