Пређи на садржај

Веб-пописивач

С Википедије, слободне енциклопедије

Veb-indekser (engl. Web crawler, Web spider, ant, automatic indexer) је интернет робот који систематски претражује веб, углавном у сврхе индексирања веб-локација. Такође је познат и као програм трагач или претраживач веб-локација. У даљем тексту ће се користити појам трагач.

Претраживачи веба и неки сајтови користе трагаче да ажурирају веб-садржај или индексе садржаја других веб-сајтова. Програми трагачи могу да ископирају све стране које посете ради каснијег процесирања од стране претраживача веба који индексира странице које су преузете, тако да би их корисници брже проналазили.

Програми трагачи могу да изврше валидацију хипервеза и HTML кода. Такође се могу користити за екстракцију података са веба.

Начин рада програма трагача

[уреди | уреди извор]

Трагач рад отпочиње са низом веб-адреса које треба посетити. Те адресе се називају семена. Како програм трагач посећује те веб-адресе, он препознаје све хипервезе које се налазе на тој страници и додаје их на листу веб-адреса које треба посетити, која се назива граница трагања. Касније се те странице рекурзивно посећују према скупу политика посећивања.

Велика количина веб-страница повлачи као последицу да трагач може да преузме само одређени број веб-страница у задатом временском року, тако да је приоритет преузимања страница јако битан. Велики број промена повлачи чињеницу да су странице можда промењене или чак избрисане.

Број страница за посећивање које генерише серверски софтвер, такође отежава трагачима да избегну преузимање дупликата садржаја. Постоји безброј комбинација HTTP GET параметара, од којих ће само мали број вратити јединствен садржај. На пример, узмимо најпростију он-лајн (енг. он-лине) галерију слика која нуди три опције корисницима, наведене помоћу ХТТП ГЕТ параметара у веб-адреси. Ако постоји четири начина да се сортирају слике, три избора за велицину иконица, два формата података, и опција да онемогућимо садржај који пружа корисник, онда истом садржају можемо да приступимо са 48 различитих адреса, све настале од оног сто се може повезати на сајту. Ова математичка комбинација ствара проблем трагачима, јер они морају да сортирају кроз безброј комбинација релативно малих промена да би дошли до јединственог садржаја.

Као што су Едwардс и сарадници навели : "Узевши у обзир то да опсег за рад трагача није бесконачан, и има своју цену, неопходно је да претраживање веба буде не само скалабилно, већ и ефикасно, ако желимо да одржимо неку разумну меру квалитета и свежине." Трагач мора при сваком кораку пажљиво да бира коју ће следећу страницу да посети.

Понашање програма трагача је резултат следеће комбинације политика:

  • политика одабира, која наводи које странице треба преузети,
  • политика поновног посећивања, која наводи када проверити да ли је дошло до промене странице,
  • политика „лепог понашања“, која наводи начине за избегавање преоптерећење сајтова,
  • политика паралелизације, која наводи како управљати дистибуираним трагачима.

Политике програма трагача

[уреди | уреди извор]

Политика одабира

[уреди | уреди извор]

Узевши у обзир тренутну величину веба, чак и велики претраживачи веба покривају само удео од дела доступног јавности. Истраживањаа спроведена 2005. године показала је да претраживачи веба великих размера не индексирају више од 40% — 70% индексаблиног веба; претходна истраживања од стране Стива Лоренса и Лија Џилса показале су да ни један претраживач веба није индексирао више од 16% веба 1999. године. Пошто трагач увек преузима само фракцију веб-странице, веома је пожељно да преузета фракција садржи најважније странице, а не само насумичне узорке веба.

Ово захтева јединицу важности да би се одредио приоритет веб-страница. Вредност странице је функција њеног унутрашњег квалитета, њене популарности у погледу хипервеза или посећености, чак и њене веб-адресе. (Ово друго се односи на случај вертикалних веб-претраживача, ограничених на јединствени интернет домен највишег нивоа. Дизајнирање добре политике одабира отежава још и чињеница да мора да ради са делимичним информацијама, како комплетни скуп веб-страница није познат током рада програма трагача.

Јангху Чо и сарадници су спровели прво истраживање о политикама за планирање претраге локација по вебу. Њихов скуп података је био 180.000 страница са домена stanford.edu, на ком су спроведене симулације над трагачима са различитим стратегијама. Тестиране мере за редослед су биле претрага у ширину, backlink-count стратегија и делимичне PageRank калкулације.(PageRank је алгоритам који користи Гуглов претраживач веба.) Један од закључака је био да је, ако трагач жели да преузме странице са високим PageRank приоритетом раније у току свог рада, боље применити делимичне PageRank калкулације, затим претрагу у ширину и backlink-count стратегију. Међутим, ови резултати су били у оквиру само једног домена. Чо је такође написао докторску дисертацију на Станфорду везану за програме трагаче.

Најорк и Винер су спровели индексирање локација на 328 милиона страница, користећи претрагу у ширину.[1] Открили су да овом методом програм трагач преузима странице са високим PageRank приоритетом раније током свога рада (али они нису упоредили ову стратегију са другим стратегијама). Објашњење дато од стране аутора за овакав резултат било је да најважније странице имају много хипервеза од стране бројних хостова према њима, и да такве хипервезе буду најраније пронађене, без обзира на то са ког хоста или странице почиње индексирање локација.

Абитбул је дизајирао стратегију засновану на алгоритму OPIC (енгл. On-line Page Importance Computation). У OPIC алгоритму свакој страници је дата почетна сума „новца”, која се подједнако дистрибуира између страница на које показује. То је слично PageRank израчунавањима, али је било брже и било је рађено у једном кораку. Трагач заснован на OPIC алгоритму прво преузима странице у граници трагања које имају већу своту новца. Експерименти су изведени на синтетичком графу од 100.000 страница, са степеним законом расподеле унутрашњих хипервеза. Међутим, није спроведено ни једно упоређивање са осталим стратегијама, нити експериментисање на правом вебу.

Паоло Болди и сарадници су спровели симулацију на подскупу веба која је садржала 40 милиона страница са .ит домена и 100 милиона страница са WebBase-а, тестирајући претрагу у ширину против претраге у дубину, насумичног поретка и свезнајуће стратегије. Поређење је заснивано на томе колико је PageRank добијен на делимичном индексирању локација приближан правој вредности. Изненађујуће, неке стратегије које нагомилавају PageRank веома брзо (пре свега, претрага у ширину и свезнајућа стратегија), пружају веома лоша прогресивна израчунавања.[2][3]

Баеза-Јејтс и сарадници користили су симулацију на два подскупа веба који се састојао од 3 милиона страница са .гр и .цл домена, тестирајући неколико стратегија.[4] Показали су да и OPIC стратегија и стратегија која користи per-site ред боља од стратегије која користи претрагу у ширину, и да је такође, када је то могуће, веома ефикасно користити претходно индексирање локација као смерницу за тренутно.

Шервин Данешпеџох је дизајнирао алгоритам заснован на заједници, који проналази добра семена. Овај метод индексира локације са високим PageRank приоритетом из других заједница у мање итерација него индексирање локација које почиње насумичним семенима. Овако се, користећи ову методу, добро семе може извући из веб-графа који је раније коришћен. Помоћу ових семена ново индексирање локација мозе бити веома ефикасно.

Политика поновног посећивања

[уреди | уреди извор]

Веб је врло динамичне природе, тако да индексирање његове фракције може да потраје недељама или месецима. Док трагач заврши своје индексирање локација, многи догађаји би могли да се десе, укључујући додавања, ажурирања и брисања садржаја.

Из тачке гледишта претраживача веба, постоји цена која је везана за догађај који се десио, а тиме за последицу има застарелу копију ресурса. Најкоришћеније функције трошкова су свежина и старост.[5]

  • Свежина — Ово је бинарна јединица која означава да ли је локална копија прецизна или није. Свежина странице у складишту за дато време се дефинише као:
(ако је локална копија једнака у тренутку ) или као
(уобичајено).
  • Старост — Ово је јединица која показује колико је застарела локална копија. Старост странице у складишту, за дато време се дефинише као:
(ако није модификована у тренутку ) или као
(уобичајено).

Едвард Кофман је радио са дефиницијом циља трагача која је еквивалентна свежини, али је то другачије формулисао; он је предлагао да трагач мора да минимализује фракцију времена за коју је страница застарела. Он је такође приметио да се индексирање локација може моделовати помоћу бирачког система са више редова, а јединственим сервером у ком је трагач сервер, а веб-сајтови су редови. Модификације страница су доласци бирача, а прелазна времена су интервали између приступа страница једног веб-сајта. У овом моделу, међувреме које се проводи у чекању на бирача је у бирачком систему је еквивалентно просечној старости за програм трагач.

Циљ трагача је да одржи странице у својој колекцији што је могуће свежијим, или да одржава просечну старост страница што је могуће нижом. Ови циљеви нису еквивалентни: у првом случају трагача само занима број страница које су застареле, док у другом случају програм трагач само брине о старости локалних копија страница.

Чо и Гарсија-Молина су проучавали две просте политике поновног посећивања:

  • Униформна политика — Ово подразумева посећивање свих страница истом учесталошћу, без обзира на њихову брзину промена.
  • Пропорционална политика — Ово подразумева чешће посећивање оних страница које се брже мењају. Учесталост посећивања је директно пропорционална (процењеној) брзини промена.

(У оба случаја, поновљени редослед индексирања се може извшити у насумичном или фиксном редоследу.)

Чо и Гарсија-Молина су показали изненађујуће резултате по којима — у смислу просечне свежине — униформна политика превазилази пропорционалну политику у индексирању, како на симулацији веба, тако и на правом вебу.

Интуитивно, образложење је то да, пошто трагачи имају ограничен број страница који могу да индексирају за одређено време, треба у обзир узети следеће:

  1. алоцирати превише нових индексирања на странице које се брзо мењају, по цену смањења учесталости ажурирања страница и
  2. свежина страница које се брзо мењају траје мање од свежине страница које се не мењају толико често.

Другим речима, пропорционална политика алоцира више ресурса да би индексирала странице које се чешће мењају, али добија мању укупну свежину страница од њих.

Да би побољшао свежину, програм трагач треба да „казни” елементе који се јако често мењају. Оптимална политика поновног посећивања није ни униформна политика ни пропорционална политика. Оптимална метода за одржавање просечне свежине високом подразумева игнорисање страница које се пречесто мењају, а оптимални метод за одржавање просечне старости ниском јесте да се користе приступне учесталости које се монотоно (или сублинеарно) повећавају са брзином промене сваке странице. У оба случаја, оптимална метода је ближа униформној политици него пропорционалној политици, како би Едвард Кофман рекао: „Да би смањили очекивано време застарелости, приступи било којој страници треба да буду најравномерније могуће рапоређени.” Експлицитне формуле за политику поновног посећивања се генерално не могу достићи, али се добијају бројчано, пошто зависе од дистрибуције промена страница. Чо и Гарсија-Молина показују да би се експоненцијална дистрибуција добро уклопила у опис промена страница, док Ипериотис и сарадници показују како употребити статистичке алатке да би се одредили параметри који утичу на ову дистрибуцију.[6] Може се приметити да све политике поновног посећивања које се овде разматрају гледају на све странице као хомогене, у квалитативном погледу, што и није баш реалистичан сценарио, тако да би додатне информације о квалитету веб-странице требало да буду укључене како би се постигла боља политика индексирања.

Политика лепог понашања

[уреди | уреди извор]

Трагачи могу да преузму информације далеко брже и дубље него људи, тако да могу да задају погубни удар на перформансе веб-сајта. Непотребно је рећи да, ако један трагач обавља више захтева у секунди и/или преузимање великих датотека, исти би тешко држао корак са захтевима више трагача.

Као што је наведено од стране Костера, коришћње трагача је корисно за више задатака, али има своју цену за општу заједницу. Цена употребе програма трагача подразумева:

  • мрежне ресурсе (како трагачи захтевају значајан проток и раде с високим степеном паралелизма током дугог временског периода),
  • преоптерећење сервера (поготово ако је учесталост посета датом серверу превелика),
  • слабо написане трагаче (који могу да оборе сервере или рутере, или преузму странице које не могу да обраде) и
  • личне трагаче (који, ако су употребљени од стране више корисника, могу да поремете мрежу и веб-сервер).

Делимично решење за ове проблеме је протокол за искључење робота, такође познат као robots.txt протокол, који је стандард за администраторе и указује на ком то делу веб-сервера трагачи не би требало да приступе. Овај стандард не обухвата предлог за интервал посета према истом серверу, иако је интервал најефикаснији начин да се избегне преоптерећење сервера. Однедавно су комерцијални претраживачи попут Гугла, Аск џивса и Јахуа у могућности да користе додатни crawl-delay параметар у robots.txt фајлу за назначавање броја секунди размака измађу захтева.

Први предложени размак између конекција износио је 60 секунди. Међутим, ако су странице преузимане овим темпом са неког веб-сајта са више од 100.000 страница, преко савршене везе без кашњења и са бесконачним протоком, било би потребно више од 2 месеца да се преузме само цео тај веб-сајт. Такође, само мали део тих информација са веб-сервера би био искоришћен. Ово не изгледа прихватљиво...

Чо користи 10 секунди као интервал за приступе, а WIRE трагач користи 15 секунди као подразумевану вредност.[7] MercatorWeb трагач користи политику адаптивне пристојности: ако је требало секунди да се преузме документ са датог сервера, трагач чека секунди пре преузимања следеће странице.[8] Дил и сарадници користе интервал од 1 секунде.[9]

За оне који користе трагаче у истраживачке сврхе, детаљнија анализа трошкова и користи је неопходна, као и етичка питања која треба узети у обзир приликом одлучивања где се индексира и колико брзо се индексира.

Непоуздани докази из приступних логова (дневника, записа) показују да приступни интервали познатих трагача варирају између 20 секунди и 3 минута — 4 минута. Треба напоменути да — чак и када се веома лепо понашају и предузимају све мере заштите да би се избегло преоптерећење веб-сервера — добију неке притужбе од стране администратора веб-сервера. Брајан и Пејџ су приметили да „...управљати трагачем који повезује више од пола милиона сервера ствара поприличан број мејлова и позива. Због огромног броја људи који дођу on-line, увек има оних који не знају шта је трагач, зато што је ово први пут који су видели исти.”

Политика паралелизације

[уреди | уреди извор]

Паралелни трагач је трагач који има покренуте вишеструке процесе истовремено. Циљ је да се максимално повећа преузимање док се минимализује преплављеност настала паралелизацијом и да се избегне поновно преузимање исте странице. Да би избегао преузимање једне странице више пута, систем за индексирање треба политику за доделу нових веб-адреса откривених током индексирања, пошто се иста адреса може јавити у два различита процеса индексирања.

Тематско/фокусирано индексирање

[уреди | уреди извор]

Важност странице за програм трагач може се изразити преко сличности са страницом која је задата у упиту. Трагачи који покушавају да преузму странице које су међусобно сличне називају се тематски трагачи или тематски веб-индексери. Концепте тематског и фокусираног индексирања су први увели Менцер, Чакрабарти и сарадници.[10]

Главни проблем у тематском индексирању је тај што би ми волели да будемо у могућности да предвидимо сличност странице са текстом задатим у упиту пре него што заправо преузмемо страницу. Могући предиктор је текст у сидрима хипервеза; то је приступ који је заузео Пинкертон у првом трагачу у раним данима веба. Дилиџенти и сарадници[11] предлажу коришћење целокупног садржаја странице која је већ посећена да би се одредила сличност између покренутог упира и странице која још није посећена. Учинак тематског трагача зависи највише од богатства хипервеза у одређеној теми која се претражује, и тематско индексирање се углавном ослања претраживаче веба да им пружи почетне тачке.

Ограничавање праћених хипервеза

[уреди | уреди извор]

Трагач мође само да тражи HTML странице и да избегне све остале MIME-типове. Да би тражио само HTML ресурсе, трагач мора да изврши HTTP HEAD захтев за утврђивање MIME-типа веб-ресурса, пре него што затражи цео ресурс са HTTP GET захтевом. Да би се избегли бројни HEAD захтеви, трагач може испитати само веб-адресу и затражити ресурс уколико се адреса завршава нечим од следећег:

  • .HTML
  • .HTM
  • .ASP
  • .ASPX
  • .PHP
  • .JSP
  • .JSPX
  • /

Ова страегија може да изазове да бројна HTML веб-средства буду ненамерно прескочена.

Неки трагачи могу да избегну све ресурсе који имају „?” у себи (они се динамички производе), како би се избегле све замке које могу да натерају трагач да преузима неограничен број веб-адреса са веб-локације. Ова стратегија је непоуздана ако сајт користи engine за преправку да би поједноставио своју адресу.

Нормализација веб-адреса

[уреди | уреди извор]

Трагачи обично врше неку врсту номализације веб-адреса, како би се избегло индексирање истог ресурса два пута. Термин нормализације веб-адресе, који се такође назива канонизацијом веб-адресе, односи се на процес мењања и стандардизације веб-адреса на доследан начин. Постоји неколико типова нормализације које могу бити извршене, укључујући и конверзију веб-адресе у мала слова, уклањање сегмената „.” и „...”, као и додавање пратећих slasheva на непразне path компоненте.[12]

Индексирање са узлазном путањом

[уреди | уреди извор]

Неки трагачи намеравају да преузму што је више ресурса могуће са одређеног веб-сајта. Тако је трагач са узлазном путањом уведен да би се попео на сваку путању до жељене у датој адреси. На пример, кад му је дато семе, трагач ће покушати да индексира /hamster/monkey, /hamster i /. Котез је установио да је трагач са узлазном путањом веома ефективан у проналажењу изолованих ресурса, или ресурса за које — у обичном индексирању — долазни линк не би био пронађен.

Многи трагачи са узлазном путањом су такође познати као софтвер за убирање веб-садржаја (енгл. Web scraping software, Web harvesting software), зато што се користе да прикупе комплетан садржај са одређене странице или хоста.

Академски трагачи

[уреди | уреди извор]

Пример тематских трагача су академски трагачи, који индексирају академске документе са отвореним приступом, као што су citeseerxbot, трагач CiteSeerX претраживача. Други академски претраживачи су Google Scholar и Microsoft Academic Search и др. Пошто је већина академских докумената публикована у PDF формату, оваква врста трагача је посебно заинтересована за индексирање PDF, postscript, Microsoft Word и њихових компримованих формата. Због овога, општи open-source трагачи, као што је Heritrix, морају бити прилагођени да филтрирају остале MIME-типове, или да се посредни софтвер користи за издвојање ових докумената и убацивање истих у базу података и складиште за тематско индексирање. Изазов је идентификовати да ли су ови документи академски, толико да то може значајно загушити процес индексирања, тако да се као пост-процеси користе алгоритми засновани на машинском учењу и регуларним изразима. Ови академски документи се најчешће добијају са почетних страница особља факултета и студенара, или страница за публикације научних института. Пошто ови документи заузимају мали део укупне веб-странице, добар избор семена је важан за побољшање ефикасности ових трагача. Други академски трагачи могу да преузму обичан текст и HTML датотеке, које садрже метаподатке академских папира, као што су наслови, папири и сажеци. Ово увећава укупни број папира, али значајан део њих можда неће обезбедити бесплатна преузимања.

Архитектуре

[уреди | уреди извор]
Архитектура високог нивоа стандардног програма трагача

Трагач не само да мора да има добру стратегију индексирања, као што је наведено у претходним поглављима, већ такође треба да има оптимизовану архитектуру.

Шкапенијук и Суел су приметили следеће:

Трагачи су централни део претраживача, а детаљи о њиховим алгоритмима и архитектури се чувају као пословне тајне. Када су дизајни пузавца објављени, често постоји значајан недостатак детаља који спречава друге да репродукују рад. Ту се такође појављује забринутост „претраживачког спамовања”, које спречава водеће интернет претраживаче од објављивања њиховог рангирања алгоритама.

Идентификација трагача

[уреди | уреди извор]

Трагачи се обично индетификују на веб-серверу користећи корисничке агенте у HTTP захтеву. Веб-сајт администратори ће обично испитати њихово веб-серверско пријављивање и користити поље корисничког налога да одреде који пузавац је посетио веб-сервер и колико често. Корисничко поље може да садржи URL адресу где администратор веб-сајта може сазнати више информација о трагачу. Испитивање веб-серверске пријаве је досадан задатак, па стога неки администратори користе алате као што су CrawlTrack или SEO Crawlytics да се индетификују, прате и верификују програми трагачи. Спамботови и други злонамерни трагачи највероватније неће поставити идентификационе податке у поље корисничког агента, или могу маскирати свој индетитет у веб-прегледач или неки други познати програм трагач.

Важно за трагаче је да се индетификују тако да администратори веб-сајта могу да контактирају власника ако је то потребно. У неким случајевима, трагачи могу да се случајно заробе у замку за трагаче или могу преоптеретити веб-сервер захтевима, те тада власник мора да заустави трагача. Идентификација је такође корисна за администраторе који су заинтересовани да знају када могу да очекују да ће њихове странице бити индексиране од стране претраживача веба.

Следи листа објављених архитектура трагача за трагаче опште намене (без тематских трагача) са кратким описом који укључује имена приписана разлицитим компонентама и изузтеним карактеристикама:

  • Yahoo!Slurp је име Јахуовог трагача.
  • Bingbot је име за Microsoftov Bing програм трагач. Заменио је Msnbot.
  • Fast Crawler[13] је дистрибуирани трагач, користи га Fast Search & Transfer, а оквирни опис његове архитектуре је доступан.
  • Googlebot је описан у неким детаљима, али мисли се само на ранију верзију његове архитектуре, која је била заснована на C++-у и Phyton-у. Трагач је интегрисан у процес индексирања, јер је парсирање текста урађено за индексирање целог текста и такође за екстракцију веб-адресе. Постоји веб-адреса сервера која шаље спискове веб-адреса која се уносе у неколико трагачких процеса. Током анализе, пронађене веб-адресе су прослеђене веб-серверу да провери да ли је веб-адреса раније виђена. Ако није, веб-адреса је додата у ред тог веб-сервера.
  • PolyBot је дистрибурани трагач написан у C++-у и Phyton-у, који се састоји од „менаџера трагача”, једног или више „преузимача” и једног или више „ДНС проналазача”. Прикупљене веб-адресе се смештају у ред на диску, а касније се обрађују да би претраживале већ виђене веб-адресе у batch моду. Политика лепог понашања разматра и домене трећег и другог нивоа (нпр. www.example.com и www2.example.com су домени трећег нивоа) јер се домени трећег нивоа хостују на истом веб-серверу.
  • RBSE био је први објављени трагач. Он се заснивао на два програма. Први програм, „паук”, одржава ред у релационој бази података, а други програм, „Mite”, модификован је www ASCII претраживач који преузима странице са интерента.
  • WebCrawler је коришћен за изградњу првог јавно доступног комплетног текст индекс подскупа веба. Он се засновао на lib-WWW да преузима странице, док је други програм парсирао и сортирао веб-адресе за претрагу веб-графа у ширину. То такође укључује трагач који ради у реалном времену и који следи везе на основу сличности текста сидра са датим упитом.
  • World Wide Web Worm је трагач који је био коришћен за изградњу једноставног индекса наслова докумената и веб-адреса. Индекс се може претраживати помоћу grep Unix команде.
  • WebFountain је дистрибуиран, модуларни трагач сличан Mercator-у али написан у C-у. Поседује „контролор” машину која координира радом скупа машина „мрава”. После вишеструког преузимања страница и учесталост промена странице се закључује за сваку страницу и онда се, методом нелинаерног програмирања, мора решити систем једначина који максимизује свежину. Аутори препоручују да се користи овај редослед индексирања у раним фазама рада трагача, а да се после тога преже на униформан редослед индексирања, у којем се све странице прегледају истом учесталошћу.
  • WebRACE[14] је модул за индексирање и кеширање имплементиран у Javi, а користи се као део више генеричког система названог eRACE. Систем прима захтеве од корисника за преузимање веб-страница, тако да трагач делује делом и као паметан прокси сервер. Систем такође обрађује захтеве за „претплату” на веб-странице које се морају пратити: када се странице мењају, оне морају бити преузете од стране трагача и претплатник мора бити обавештен. Најизраженија особина WebRACE-а је да, док већина трагача почиње са скупом семена, WebRACE непрестано прима нове почетне веб-адресе од којих ће да отпочне индексирање.

Поред специфичне архитектура овде наведених трагача, постоји и општа архитектура трагача објављена од стране Чоа и Чакрабартија.

Додатни извори информација

[уреди | уреди извор]
  • Cho, Junghoo, „Web Crawling Project“ Архивирано на сајту Wayback Machine (7. јул 2013), UCLA Computer Science Department.
  • WIVET је бенцхмаркинг пројекат од стране OWASP-а, чији је циљ да провери да ли трагач може да идентификује све хипервезе на циљној веб-страници.

Референце

[уреди | уреди извор]
  1. ^ Марц Најорк & Јанет L. Wиенер (5. 2001). Бреадтх-фирст цраwлинг yиелдс хигх-qуалитy пагес Ин Процеедингс оф тхе Тентх Цонференце он Wорлд Wиде Wеб Архивирано на сајту Wayback Machine (24. децембар 2017). Елсевиер Сциенце. Хонг Конг. стр. 114—118
  2. ^ Болди, Паоло; Цоденотти, Бруно; et al. (2004). „UbiCrawler: a scalable fully distributed Web crawler” (PDF). Software: Practice and Experience. 34 (8): 711—726. doi:10.1002/spe.587. Архивирано из оригинала (PDF) 20. 03. 2009. г. Приступљено 23. 3. 2009. 
  3. ^ Boldi 2004, стр. 168–180.
  4. ^ Baeza-Yates, R.; Castillo, C.; Marin, M.; Rodriguez, A. . Crawling a Country: Better Strategies than Breadth-First for Web Page Ordering. In Proceedings of the Industrial and Practical Experience track of the 14th conference on World Wide Web. Chiba, Japan. ACM Press. (2005). стр. 864—872.
  5. ^ Cho, Junghoo; Hector Garcia-Molina (2000). „Synchronizing a database to improve freshness” (PDF). Proceedings of the 2000 ACM SIGMOD international conference on Management of data. Dallas, Texas, United States: ACM. стр. 117—128. ISBN 978-1-58113-217-5. doi:10.1145/342009.335391. Архивирано из оригинала (PDF) 18. 8. 2003. г. Приступљено 23. 3. 2009. 
  6. ^ Ipeirotis, P.; Ntoulas, A.; Cho, J.; Gravano, L. (4. 2005). Modeling and managing content changes in text databases Архивирано на сајту Wayback Machine (5. септембар 2005). Ин Процеедингс оф тхе 21ст ИЕЕЕ Интернатионал Цонференце он Дата Енгинееринг. Токyо. стр. 606—617
  7. ^ Баеза-Yатес, Р. & Цастилло, C. (2002). Баланцинг волуме, qуалитy анд фресхнесс ин Wеб цраwлинг. Ин Софт Цомпутинг Сyстемс — Десигн, Манагемент анд Апплицатионс. Сантиаго, Цхиле. ИОС Пресс Амстердам. стр. 565—572
  8. ^ Хеyдон, Аллан; Најорк, Марц (26. 6. 1999). „Мерцатор: А Сцалабле, Еxтенсибле Wеб Цраwлер” (ПДФ). Архивирано из оригинала (ПДФ) 22. 11. 2004. г. Приступљено 22. 3. 2009. 
  9. ^ Дилл, С.; Кумар, Р.; Мццурлеy, К. С.; Рајагопалан, С.; Сивакумар, D.; Томкинс, А. (2002). „Селф-симиларитy ин тхе wеб” (ПДФ). АЦМ Транс. Интер. Тецх. 2 (3): 205—223. .
  10. ^ Цхакрабарти, С.; ван ден Берг, M.; Дом, Б. (1999). Фоцусед цраwлинг: а неw аппроацх то топиц-специфиц wеб ресоурце дисцоверy. Цомпутер Нетwоркс, 31(11–16):1623–1640.
  11. ^ Дилигенти, M.; Цоетзее, Ф.; Лаwренце, С.; Гилес, C. L.; Гори, M. (2000). Фоцусед цраwлинг усинг цонтеxт грапхс Архивирано на сајту Wayback Machine (7. март 2008). In Proceedings of 26th International Conference on Very Large Databases (VLDB). Cairo, Egypt. стр. 527—534
  12. ^ Pant, Srinivasan & Menczer 2004, стр. 153–178
  13. ^ Risvik, K. M. and Michelsen, R. (2002). Search Engines and Web Dynamics веза}}. Computer Networks, [мртва веза]. Computer Networks. 39: 289—302.  Недостаје или је празан параметар |title= (помоћ), 6. 2002.
  14. ^ Zeinalipour-Yazti, D. and Dikaiakos, M. D. (2002). Design and implementation of a distributed crawler and filtering processor. In Proceedings of the Fifth Next Generation Information Technologies and Systems (NGITS), volume 2382 of Lecture Notes in Computer Science, pages 58—74, Caesarea, Israel. Springer.