Semalt 5 مرحله برای خراش دادن صفحات وب را پیشنهاد می کند

Scrapy یک منبع آزاد و چارچوبی برای استخراج اطلاعات از وب سایت های مختلف است. از API ها استفاده می کند و در پایتون نوشته شده است. Scrapy در حال حاضر توسط یک شرکت scraping وب به نام Scrapinghub Ltd. نگهداری می شود.

این یک آموزش ساده در مورد چگونگی نوشتن خزنده وب با استفاده از Scrapy ، تجزیه Craigslist و ذخیره اطلاعات در قالب CSV است. پنج مرحله اصلی این آموزش در زیر ذکر شده است:

1. یک پروژه جدید Scrapy ایجاد کنید

2. برای خزیدن یک وب سایت و استخراج داده ها ، یک عنکبوت بنویسید

3. داده های خراشیده شده را با استفاده از خط فرمان صادر کنید

4. عنکبوت را تغییر دهید تا لینک ها را دنبال کنید

5- از آرگومان های عنکبوتی استفاده کنید

1. ایجاد یک پروژه

اولین قدم ایجاد یک پروژه است. شما باید Scrapy را بارگیری و نصب کنید. در نوار جستجوی آن ، باید نام دایرکتوری را که می خواهید داده ها را ذخیره کنید ، وارد کنید. Scrapy از عنکبوتهای مختلف برای استخراج اطلاعات استفاده می کند و این عنکبوتها درخواست اولیه را برای ایجاد دایرکتوری ها انجام می دهند. برای قرار دادن یک عنکبوت برای کار ، باید به لیست فهرست ها مراجعه کرده و یک کد خاص را در آن وارد کنید. فایلها را در فهرست موجود خود نگه دارید و به دو پرونده جدید توجه کنید: quotes-a.html و quotes-b.html.

2. برای خزیدن وب سایت و استخراج داده ها ، یک عنکبوت بنویسید:

بهترین راه برای نوشتن عنکبوت و استخراج داده ها ایجاد انتخاب های مختلف در پوسته Scrapy است. شما همیشه باید URL ها را به نقل از آن محصور کنید. در غیر این صورت ، Scrapy فوری ماهیت و یا نام آن URL ها را تغییر می دهد. برای نوشتن مناسب عنکبوت باید از یک نقل قول مضاعف در اطراف URL استفاده کنید. شما باید از .extract_first () استفاده کرده و از خطای شاخص جلوگیری کنید.

3. داده های خراشیده شده را با استفاده از خط فرمان صادر کنید:

صادرات داده های خراشیده شده با استفاده از خط فرمان مهم است. اگر آن را صادر نکنید ، نتیجه دقیقی نمی گیرید. عنکبوت دایرکتوری های مختلفی را شامل می شود که حاوی اطلاعات مفید است. برای صادرات بهتر این اطلاعات باید از کلمات کلیدی عملکرد پایتون استفاده کنید. وارد کردن داده به پرونده های JSON امکان پذیر است. پرونده های JSON برای برنامه نویسان مفید است. ابزاری مانند JQ بدون هیچ مشکلی به صادرات داده های خرد شده کمک می کند.

4. عنکبوت را تغییر دهید تا لینک ها را دنبال کنید:

در پروژه های کوچک ، می توانید عنکبوت ها را تغییر دهید تا به طور مناسب پیوندها را دنبال کنند. اما لازم نیست با پروژه های بزرگنمایی داده های بزرگ. هنگام تغییر عنکبوت ، یک پرونده حفره یا سوراخ برای آیتم های خط لوله تنظیم می شود. این پرونده را می توان در بخش tutorial / piplines.py قرار داد. با استفاده از Scrapy ، می توانید عنکبوت های پیچیده ای بسازید و مکان آنها را در هر زمان تغییر دهید. می توانید چندین سایت را بطور همزمان استخراج کرده و پروژه های مختلف استخراج داده را انجام دهید.

5. از آرگومان های عنکبوتی استفاده کنید:

پاسخ برگشتی parse_author یک بحث عنکبوتی است که می تواند برای استخراج داده ها از وب سایت های پویا استفاده شود. همچنین می توانید آرگومان های خط فرمان را با یک کد خاص در اختیار عنکبوت ها قرار دهید. استدلال های عنکبوتی به هیچ وجه به ویژگی های عنکبوت تبدیل نمی شوند و ظاهر کلی داده های شما را تغییر می دهند.

در این آموزش ، ما فقط به اصول اولیه Scrapy پرداختیم. ویژگی ها و گزینه های زیادی برای این ابزار وجود دارد. برای اطلاع بیشتر از مشخصات آن ، فقط باید Scrapy را بارگیری و فعال کنید.