Despre Google

1. Generalitati
1.1. De ce cautare?
Am vazut pâna acum în linii mari cum se poate naviga pe Web. Se scrie adresa paginii dorite, se asteapta încarcarea ei, de aici înainte cu ajutorul conexiunilor si al butoanelor se navigheaza. Dar scopul nu este acela de a strabate pagini dupa pagini (sau cel putin nu acesta ar trebui sa fie) ci este acela de a gasi informatii utile. La fel cum nu urmarim toata ziua programele TV în speranta ca poate vom vedea o emisiune ce ne intereseaza, nici pe Internet nu navigam la voia întâmplarii. Evident exista exceptii atât în rândul celor care urmaresc programele TV cât si în rândul celor ce folosesc Internetul.
De cele mai multe ori nu stim adresele la care putem gasi informatiile ce ne intereseaza. De aceea exista asa numitele motoare de cautare (roboti de cautare). Actiunea unui motor de cautare poate fi asemanata cu cea a unui bibliotecar.
Sa luam un exemplu: cautam informatii legate de o anume tema. Nu stim în ce carte putem gasi asemenea informatii. Ce facem? Mergem la biblioteca si întrebam acolo. Un bibliotecar trebuie sa stie ce carti are în biblioteca si tematica fiecarei carti. Evident ne va recomanda mai multe volume ce trateaza tema cautata. Printre acestea se pot strecura si carti ce nu ne sunt de folos. Totusi, este mai bine sa cautam între patruzeci de volume, decât sa verificam toate rafturile bibliotecii pentru informatiile dorite.
Pe Web rolul bibliotecarilor este luat de motoarele de cautare. Unui motor de cautare îi puteti indica tema pe care o cautati si asteptati sa va furnizeze conexiuni spre pagini Web ce contin informatii legate de ceea ce ati solicitat. Observati, totusi, diferenta esentiala fata de biblioteca (pe lânga faptul ca bibliotecarul are ochelari): paginile nu se tin pe serverul unde este si motorul de cautare, ci împrastiate pe Internet. Adevarul este ca serverele ce ofera servicii de cautare sunt specializate în acest lucru si nu contin alte informatii, local.
1.2. Cum reusesc serverele?
Serverele - motoarele - de cautare functioneaza relativ simplu: ele au un program care 24 de ore din 24, 7 zile din 7, navigheaza pe Internet, nesupravegheat, automat. Acest program de pe server aduna cuvinte cheie din fiecare pagina de pe Internet (nu ia în considerare chiar toata informatia din pagina), si le salveaza în baza proprie de date de pe serverul de cautare, împreuna cu adresa unde a gasit cuvintele cheie respective. Astfel, serverele de cautare au o uriasa baza de date de cuvinte cheie si adrese unde pot fi gasite informatii despre aceste cuvinte cheie.
1.3. Cum reuseste clientul?
Clientul însemnând utilizatorul, echipat cu browser si conexiune Internet, desigur.
Pe pagina principala a acestor servere, predomina casuta de text în care scrieti termenul(-ele) cautat(-e), si un buton, cu care sa porniti cautarea. La apasarea butonului, browserul trimite textul de cautat serverului:
acesta cauta în baza lui de date, apoi trimite înapoi o pagina cu rezultatele:
Dupa cum se vede, pagina cu rezultate contine legaturi si descrierea succinta a informatiilor de pe pagina pe care o încarca legatura respectiva.
1.4. Din ce traiesc serverele?
Exista multe servere de cautare. Si puteti sa le folositi gratuit! Probabil va întrebati din ce traiesc serverele respective, mai exact oamenii care le administreaza? Gânditi-va ca daca sub casuta de text în care dvs. scrieti textul de cautat este si o imagine-legatura care spune ceva de genul
Cumparati sosetele noastre
de nylon ca-s ieftine si bune!
cu imaginea apetisanta al produsului, si daca aceasta pagina de cautare este accesata si vazuta de câteva sute de mii de oameni pe zi, respectiva firma are sanse bune de a-si vinde produsul. Asa ca îi este rentabil sa plateasca o taxa, cât de mare, pentru spatiul publicitar de pe pagina.
1.5. Câteva din serverele de cautare cele mai folosite
1.5.1. Google
Una din serverele de cautare cele mai utile si mai accesate este Google, cu adresa http://www.google.com. Pagina de cautare este simpla, ceea ce conteaza, pentru ca daca pagina ar contine multe imagini, text etc., s-ar încarca mai lent. În momentul de fata (adica la scrierea cursului), Google este pe prima pozitie pe topul serverelor de cautare. Este foarte rapid, ceea ce reflecta investitii în echipamente si conexiune la Internet de mare viteza (de partea lor). Este si exact, adica majoritatea rezultatelor cautarii sunt la obiect, ceea ce reflecta programe de cautare eficiente si destepte, probabil cu elemente de inteligenta artificiala si analiza gramaticala si sintactica avansata poliglota. Desigur, aceste lucruri sunt secrete bine pazite si de fapt nici nu intereseaza utilizatorul.
Exercitiu: cautati, cu Google, combinatia "arhitectura Cluj", fara ghilimele. Observati rezultatele.
Ca toate motoarele de cautare care se respecta, si Google ofera o pagina de cautare avansata:
Google în limba româna
Da, cei de la Google au tradus pagina principala de cautare si în limba româna. Adresa este http://www.google.com/intl/ro/ (sau clic pe legatura "Language tools" de pe pagina principala).
De fapt, puteti selecta din multe limbi, la adresa http://www.google.com/language_tools?hl=ro. Aceasta pagina nu numai ca va permite sa selectati limba de pe pagina cautata, dar si din ce tara sa fie site-urile pe care se tin paginile respective. De exemplu, puteti cauta toate paginile în limba româna, de pe servere canadiene, care contin cuvântul "masina":
Exercitiu: încercati cautarea de mai sus. Observati rezultatele. Configurati interfata grafica de cautare Google înapoi în engleza, apoi în araba. Cititi cu voce tare.
Pe aceeasi pagina, puteti folosi serviciul de traducere (din pacate, nu în/din româna).
Din pacate, nu exista înca server Google în România. Avantajul ar fi viteza sporita, din moment ce cererea si rezultatele nu ar trebui sa traverseze câteva retele de calculatoare din alte tari, ci ar traversa mai putine retele, românesti.
1.5.2. Altavista
Acest motor de cautare este unul dintre cele mai vechi de pe Internet. Ofera cautare avansata si multe alte optiuni.
1.5.3. Lycos
Un motor de cautare vechi, dar bun. Ofera si alte servicii, de exemplu e-mail.
1.5.4. Metacrawler
Metacrawler este un motor de cautare cu care se poate efectua "metasearch". Asta înseamna ca acest motor de cautare nu are baza de date proprie, ci trimite cererea dvs. la alte motoare de cautare, si trimite rezultatele înapoi la dvs.
Metacrawler a decazut în timp, dar tot poate furniza rezultate bune în unele cazuri.
Exista si alte motoare metasearch, dar în general sunt lente, deoarece cererea si rezultatele fac drum dublu, si nu permit toate optiunile specifice fiecarui motor de cautare în parte.
1.5.5. Cauta.ro
Cauta.ro este un motor de cautare românesc. Este de tip metasearch, adica se foloseste de alte motoare de cautare pentru cautarile lansate de dvs. Este, totusi, bun, deoarece au legatura buna cu motoarele de cautare externe, si s-ar putea sa va returneze rezultatele mai rapid decât daca le-ati face dvs. pe motoarele externe.
1.5.6. Cautare de persoane
Pe lânga motoarele de cautare generale, puteti apela la motoare de cautare specializate pe gasirea persoanelor. Astfel de motoare sunt Bigfoot.com, Infospace.com, Netcenter.com sau partea de People Search al Yahoo. Exista si alte motoare de acest gen, dar cele mentionate mai sus sunt cele mai utilizate.
Desigur, aceste motoare de cautare functioneaza cel mai bine la cautarea adreselor unor persoane din Statele Unite. Cautarea se face în functie de nume, prenume, adresa, e-mail sau fragmente din aceste date.
1.6. Secretele cautarii eficiente - din partea utilizatorului
Observatie: o foarte buna sursa pentru tehnici de cautare eficienta pe Internet puteti gasi la Searchenginewatch.com. Acest site este dedicat motoarelor de cautare si utilizarii lor. Câteva idei din acest subcapitol au fost preluate de aici.
Orice motor de cautare trebuie sa permita utilizatorului sa introduca cuvintele cheie (descrierea sumara) ale cautarii pe care o va realiza. Se vor introduce un numar mic de cuvinte (de obicei 1-3) existând limitari în ceea ce priveste lungimea. Aceste cuvinte trebuie atent selectionate astfel încât sa descrie cât mai bine informatiile pe care le cautam.
Fiti cât mai specific
De fapt, toata smecheria este sa alegem bine cuvintele cheie pe care le cautam. Cu cât sunt mai rar folosite în limbajul curent, cu atât mai mari sunt sansele sa gasim pagini care sa contina exact informatiile pe care le cautam.
De exemplu, nici nu are sens sa cautam cuvântul copil, pentru ca este un termen foarte des folosit, si rezultatele vor fi foarte generale, de la Mos Craciun pâna la hard rock si tehnicile de baut vodca în Siberia. În schimb, daca termenii de cautare sunt rulment cluj 10 fabrica, avem mai multe sanse sa gasim informatii exacte despre ceea ce cautam de fapt, adica firmele din Cluj care fabrica rulmenti cu zece bile.
Adevarul e ca probabil vom gasi si pagini despre elevi care au primit nota zece la Cluj pentru ca au reparat rulmenti pe care fabrica le-a garantat pentru douazeci de ani...sau afaceri de spalare de bani care merg ca pe rulmenti, de zece ani, la fabrica de banane, si cu banii acestia se cumpara droguri la Cluj.
Majoritatea motoarelor de cautare permit specificarea unor optiuni de baza în cautarea termenilor. Desigur, au si optiuni specifice fiecarui server, dar cele de baza sunt suficiente pentru o cautare obisnuita.
Lucrati cu baza cuvintelor
Uneori, este bine sa fiti cât mai specific. Alteori, acest lucru dauneaza cautarii, adica veti primi multe rezultate irelevante. De exemplu, cautarea textului vopsea albastra poate sa nu dea rezultatele asteptate, deoarece paginile care contin termenii "vopsit" sau "albastru" nu vor fi afisate ca rezultat, desi poate v-ar interesa. De aceea, puteti cauta vops albastr; poate ca nu e corect lexicografic, dar, la urma urmei, cautarea este de fapt cautarea unui sir de litere (termenii cautati) într-un alt sir de litere (paginile din baza de date), si pe server nu-l intereseaza ce cautati.
Cu metoda de mai sus, veti gasi toate paginile care contin vopsea, vopsit, vopsirea, etc., sau albastru, albastra, albastrui, adica toate derivatele lui vops si albastr.
Fortarea unui termen cu "+"
Uneori, vrem ca motorul de cautare sa gaseasca paginile care contin neaparat toti termenii pe care îi cautam, nu doar unele dintre ele. Cu "+", putem forta motorul de cautare sa afiseze ca rezultat doar paginile care contin neaparat un termen anume.
De exemplu, daca vrem sa gasim pagini în care sa apara atât George Bush cât si Ben Laden, vom cauta +bush +laden. Majoritatea motoarelor de cautare nu fac distinctie între literele mari si mici, desi la unele, acest lucru se poate specifica.
Similar, daca vrem sa gasim informatii despre arhitectura din Cluj, vom cauta +arhitectura +cluj. Acest lucru este util în special din cauza ca nu stim daca articolul contine textul "arhitectura din Cluj", "arhitectura clujeana", "arhitectura Clujului", "arhitecturala clujeana" sau alte variatiuni. Cu textul de cautare de mai sus, toate aceste pagini vor corespunde conditiei de cautare.
Excluderea unui termen cu "-"
Alteori, dorim pagini care sa nu contina, în nici un caz, un termen anume (sau mai multi). Putem forta motorul de cautare sa afiseze doar paginile care nu contin un termen anume, cu "-".
De exemplu, dorim sa cautam pagini despre cure de slabire, dar fara sport sau miscare, pentru ca nu ne place. Vom cauta +cur +slabire -sport -misc. Scuzati limbajul.
Cautam asa pentru ca: vrem sa gasim atât cura, cât si cure; vrem sa excludem atât miscare, cât si miscati si miscari. Exista pericolul ca motorul sa gaseasca si pagini care contin text cu limbaj mai libertin. Pe de alta parte, vor corespunde acestei masti de cautare si cuvinte de genul curator, curent sau incurabil. Deci, concluzia ar fi ca este mai bine sa cautam +cura +slabire -sport -misc, apoi +cure +slabire -sport -misc.
Unele motoare de cautare au optiunea "Exclude", unde putem specifica termenii de exclus; majoritatea însa permit folosirea sintaxei -termen.
De regula, este indicat sa folosim semnul "-" atunci când primim prea multe rezultate irelevante, ca sa le excludem.
Ghilimele
Ce se întâmpla când cautam ceva despre Guvernul României? Putem cauta +guvernul +romaniei, dar putem primi rezultate despre guvernul indonezian care felicita bancherii pentru cum s-a redresat economia României. Ambii termeni sunt în pagina, deci cautarea a fost corecta, mai putin termenii de cautare.
În cazurile când cautam o expresie cu spatii, si ordinea cuvintelor este fixa, putem lansa o cautare exacta a expresiei ("phrase search"). Pentru exemplul de mai sus, vom cauta "guvernul româniei", cu ghilimele cu tot.
Combinatii
Puteti combina diferitele simboluri pentru o cautare mai exacta. De exemplu:
+cain -pisic "veterinar bun"
Veti gasi astfel toate paginile care contin variatii de cain (caine, caini), exclus paginile cu pisici, si neaparat textul "veterinar bun", exact asa.
"Match any"
Aceasta este o optiune utila, când doriti sa cautati mai multi termeni, dintre care macar unul sa apara pe pagina cautata. De exemplu, când cautati ceva despre câini, orice fel, puteti specifica acest lucru, cautând cain bulldog doberman si alte soiuri, si selectând optiunea "Match any" de pe pagina de cautare (daca optiunea exista, desigur). Se vor afisa toate paginile care contin caine sau/si caini sau/si cainelui sau/si bulldog sau/si doberman, dar cel putin unul dintre termeni.
"Match all"
Aceasta optiune forteaza motorul de cautare sa afiseze doar paginile care contin toti termenii cautati, indiferent de ordinea în care acestia apar în pagina. Este echivalent cu cautarea fiecarui termen cu "+".
Host
O alta optiune utila este posibilitatea specificarii site-ului (host-ului) pe care vrem sa cautam pagini. De exemplu, dorim sa cautam informatii despre jafuri pe site-ul FBI. Vom cauta:
host:www.fbi.gov +robbery
Motorul va cauta pagini care includ robbery si care sunt pe site-ul FBI-ului, www.fbi.gov. Putem cauta si mai general, pe toate site-urile guvernului Statelor Unite:
host:gov +robbery
Observatie: unele site-uri nu permit specificarea host-ului pe care sa se caute direct în textul de cautat; încercati optiunea de cautare avansata de pe pagina de cautare.
Un motor de cautare care ia în considerarea optiunea host este Altavista.
Motorul Excite lucreaza similar cu optiunea url.
Unele motoare accepta optiunea site.
Google accepta optiunile inurl sau allinurl. Acestea seamana cu optiunile "match any" si "match all". Nu uitati ca URL nu înseamna numai adresa site-ului, ci calea completa spre fisier. Asta înseamna ca daca dvs. cautati cu Google textul
povestea inurl:pdf
veti gasi documente exclusiv de tip PDF, care contin cuvântul povestea.
Mai mult, Google are si optiunea filetype, care limiteaza extensia (tipul) fisierului. Diferenta fata de inurl este ca inurl permite aparitia cuvântului pdf de mai sus oriunde în adresa (în numele site-ului, calea spre fisier, numele fisierului sau extensia lui), pe când filetype se refera doar la tipul (extensia) fisierului.
Pentru exemplul de sus, inurl:pdf probabil gasea si documente de pe site-ul www.pdf.com, pe când filetype:pdf gasea doar documente de tip PDF.
Exercitiu: încercati cautarea textului "povestea inurl:ro filetype:pdf", fara ghilimele, pe Yahoo. Observati rezultatele.
Cautare booleana
Cautarea booleana înseamna folosirea cuvintelor-cheie logice, cum ar fi OR, AND, NOT, sau NEAR.
Exemple:
cain OR pisic - ca si "match any", pagini cu cain sau pisic;
cain AND veterinar - ca si "match all", pagini care includ ambii termeni;
cain NOT pisic - toate paginile care includ cain, dar nu apare pisic;
cain NEAR maidan - maidan trebuie sa apara cât mai aproape de cain, adica imediat dupa, la un cuvânt distanta, la doua cuvinte etc.; cu cât este mai aproape, cu atât pagina respectiva va fi mai aproape de începutul listei cu rezultate.
furt AND (5 OR 10) AND ani - combinarea logicii booleene; putine motoare de cautarea accepta asa ceva, si câteodata da, alteori nu.

Niciun comentariu: