Semalt предоставя резултатите от теста на инструментите за изстъргване на уеб

Всеки потребител се сблъсква с две опции, когато иска да използва уеб инструменти за изстъргване. Те или използват външен скрепер за нередовна употреба или персонализиран скрепер. Докато персонализиран скрепер е по-добър вариант, много хора се отклоняват от него заради високата му цена. Инструментът трябва да бъде разработен, за да отговаря на вашия бизнес и предпочитания, така че изисква много работа.

От друга страна, уеб-стъргалите, които са извън рафтовете, са твърде общи, тъй като са предназначени за общи задачи за изстъргване в мрежата. Обикновено те са по-добри в някои проекти за изстъргване в интернет и вършат трудни задачи при други. За да ви помогне да направите правилния избор, някои уеб-скрепери бяха подложени на щателни тестове за изстъргване на мрежата и резултатите са показани по-долу.

Критерии за тестване

Мрежовите скрепери бяха тествани върху следните общи задачи за извличане на данни. Те бяха тествани върху способността им да изстъргват таблични доклади, текстови списъци и формуляри за вход. В допълнение, уеб scrapers бяха тествани и върху тяхната способност да извличат данни от динамични уеб страници, изградени на AJAX. Това обикновено е една от най-трудните задачи за много уеб scrapers. Способността им да се справят с Captcha също беше поставена на изпитание. И накрая, те бяха тествани върху способността им да се справят с оформлението на блока.

Резултати от тестовете

Тестваните уеб тестващи инструменти са Content Grabber, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor и Easy Web Extractor.

Резултатите показаха, че Content Grabber е най-добрият, тъй като се представи отлично във всички тествани области. Следователно, тя спечели най-високата средна оценка. Наблюдава се също така, че всички инструменти за изтриване на уеб са в състояние да изстържат форми за вход и също така да изстържат данни от уеб страници, създадени с AJAX. Така че, ако това са двете причини, от които се нуждаете от уеб скрепер, можете да изберете някоя от тях. Всички се справиха много добре и в двете области.

Следващият Content Grabber в изпълнение е Visual Web Ripper. Той се представи добре във всички области, но не толкова добре, колкото Content Grabber, така че спечели средна оценка от 4,5. Следващият уеб инструмент е Helium Scraper. Изпълнението му е почти толкова добро, колкото това на Visual Web Ripper. Единственият проблем на Helium Scraper е неговата слаба производителност при работа с оформлението на блока.

Според резултатите от тестовете, инструментите за изстъргване на мрежата, изпълнени в този ред: Content Grabber, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor и Easy Web Extractor, които поставят най-лошите показатели ,

заключение

Като се има предвид резултатите от тестовете, анализирани по-горе, Content Grabber получи оценка 5 във всички категории тестове. Така че, очевидно е най-доброто. Може да се наложи да го изпробвате и вие. За съжаление, два уеб скрепера се изтеглиха от теста по различни причини. Разработчиците на Web Data Extractor и WebHarvy извадиха продуктите си от теста.

Въпреки че не участваха в теста, бяха научени няколко неща и за двамата. WebHarvy е предназначен за изстъргване на данни от добре форматирани страници, докато Web Data Extractor е единствено за събиране на имейли, URL адреси и т.н.