Semalt Web Sayfalarını Kazımak İçin 5 Adım Önerdi

Scrapy, farklı web sitesinden bilgi almak için açık bir kaynak ve çerçevedir. API'leri kullanır ve Python ile yazılmıştır. Scrapy şu anda Scrapinghub Ltd. adlı bir web kazıma şirketi tarafından sürdürülmektedir.

Scrapy kullanarak web tarayıcısı yazma, Craigslist'i ayrıştırma ve CSV formatında bilgi saklama konusunda basit bir öğreticidir. Bu öğreticinin beş ana adımı aşağıda belirtilmiştir:

1. Yeni bir Scrapy projesi oluşturun

2. Bir web sitesini taramak ve veri çıkarmak için bir örümcek yazın

3. Alıntılanan verileri komut satırını kullanarak dışa aktarma

4. Bağlantıları takip etmek için örümcek değiştirin

5. Örümcek argümanlarını kullanma

1. Bir proje oluşturun

İlk adım bir proje yaratmaktır. Scrapy programını indirip kurmanız gerekir. Arama çubuğuna, verileri depolamak istediğiniz dizin adını girmelisiniz. Scrapy, bilgi almak için farklı örümcekler kullanır ve bu örümcekler dizin oluşturmak için ilk istekleri yapar. Bir örümceğin çalışması için dizin listesini ziyaret etmeniz ve oraya belirli bir kod girmeniz gerekir. Geçerli dizininizdeki dosyalara göz atın ve iki yeni dosyaya dikkat edin: quotes-a.html ve quotes-b.html.

2. Bir web sitesini taramak ve veri çıkarmak için bir örümcek yazın:

Örümcek yazmanın ve veri ayıklamanın en iyi yolu Scrapy'nin kabuğunda farklı seçiciler oluşturmaktır. URL'leri her zaman tırnak işaretleri içine almalısınız; Aksi takdirde, Scrapy bu URL'lerin niteliğini veya adlarını anında değiştirir. Örümceği uygun şekilde yazmak için URL'nin etrafında çift tırnak kullanmalısınız. .Extract_first () öğesini kullanmalı ve bir dizin hatasından kaçınmalısınız.

3. Alıntılanan verileri komut satırını kullanarak dışa aktarın:

Kopyalanan verileri komut satırını kullanarak dışa aktarmak önemlidir. Dışa aktarmazsanız, doğru sonuçlar elde edemezsiniz. Örümcek yararlı bilgiler içeren farklı dizinler üretecektir. Bu bilgileri daha iyi bir şekilde dışa aktarmak için Python anahtar kelimesini kullanmalısınız. JSON dosyalarına veri aktarmak mümkündür. JSON dosyaları programcılar için kullanışlıdır. JQ gibi araçlar, kazınmış verilerin sorunsuz bir şekilde dışa aktarılmasına yardımcı olur.

4. Bağlantıları takip etmek için örümcek değiştirin:

Küçük projelerde, bağlantıları uygun şekilde takip etmek için örümcekleri değiştirebilirsiniz. Ancak büyük boyutlu veri kazıma projelerinde gerekli değildir. Örümceği değiştirdiğinizde Öğe Boru Hatları için bir yer tutucu dosya oluşturulacaktır. Bu dosya tutorial / pipelines.py bölümünde bulunabilir. Scrapy ile sofistike örümcekler kurabilir ve yerlerini istediğiniz zaman değiştirebilirsiniz. Aynı anda birden fazla siteyi çıkarabilir ve çeşitli veri çıkarma projeleri gerçekleştirebilirsiniz.

5. Örümcek bağımsız değişkenlerini kullanın:

Parse_author geri çağrısı, dinamik web sitelerinden veri ayıklamak için kullanılabilen bir örümcek bağımsız değişkenidir. Belirli bir kodla örümceklere komut satırı argümanları da sağlayabilirsiniz. Örümcek argümanları hiçbir zaman örümcek nitelikleri haline gelir ve verilerinizin genel görünümünü değiştirir.

Bu derste sadece Scrapy'nin temellerini ele aldık. Bu araç için birçok özellik ve seçenek var. Spesifikasyonları hakkında daha fazla bilgi edinmek için Scrapy uygulamasını indirip etkinleştirmeniz yeterlidir.