"Det är lätt att förlåta ett
barn som fruktar mörkret.
Den verkliga tragedin är
en vuxen som fruktar ljuset."
(Platon)

"Den som gifter sig med
tidsandan blir snabbt änka."
(Goethe)

"För att komma till flodens
källa måste man simma
mot strömmen."
(Stanislaw Jerzy Lec)

Textsökning via Google

 GOOGLE - SÖKNING DIREKT...

Skriv in en specifik fråga, en fras eller ett namn
Sök i www.gluefox.com På svenska


De två valen ovan ("Sök i www.gluefox.com" respektive "På svenska") förefaller märkliga. Jag har bara tagit färdig kod från Google, så det är inte jag som designat sökfunktionen. Att välja mellan att söka på min hemsida eller att söka på svenska ter sig som ganska hjärndött och jag förstår inte vad Google menar (i båda fallen söker Google endast på min hemsida). Jag har testat lite grand och inte funnit någon skillnad. Svenska tecken fungerar lite skakigt. Söker jag på t ex Gösta Öman (utan citattecken kring) får jag t ex inget resultat alls. Sätter jag citattecken runt Gösta Öman, dvs "Gösta Öman", får jag träffar på alla förekomster. Söker jag bara på Gösta fungerar det. Det verkar således som att förekomsten av flera svenska tecken i ett och samma sökuttryck ibland ställer till problem (eller vad det nu kan bero på). Läsaren får testa sig fram. Jag är inte jätteimponerad av Google här, men kanske någon läsare har en lösning att föreslå.

Hur som helst kan ovanstående sökfunktion användas för att söka internt på min hemsida. I vissa avseenden fungerar detta bättre än min gamla sökfunktion. Bl a så får man "snippets", dvs ett kort utdrag ur texten runt omkring sökorden. Man kan använda Googles olika funktioner, t ex att lägga citationstecken runt ett sökuttryck för att endast få träffar på det exakta uttrycket. Vill man endast hitta ställen där alla sökord finns med (men inte kräver att det är det exakta uttrycket), lägger man plustecken (+) framför varje ord (+Gösta +Öman t ex), dvs funktionen blir AND (och). Skriver man flera ord, men utan citationstecken eller +, får man träff även där bara ett av sökorden finns (fungerar som OR, dvs eller). En ytterligare fördel är att man kan söka enbart på dokument som är ändrade senaste dygnet, veckan, månaden eller valfri period.

Jag har testat hur Google fungerar på min hemsida och funnit att vissa saker inte hittas trots att de finns där. När jag sökt efter samma sak med min gamla sökmotor har dessa ställen hittats. Såvitt jag kan förstå söker inte Google på den server där min hemsida finns utan på sina egna servrar, där alla hemsidor på hela Internat lagras (det är ganska imponerande). Kanske läser inte Google in varende sida som finns på en viss hemsida. Min gamla sökmotor söker igenom varje dokument på min server, hur långt som helst ner i filhierarkin. Den tar mycket längre tid än en Googlesökning (Googles egna servrar är blixtsnabba och kontrolleras av mycket snabba datorer), men hittar å andra sidan allt. Jag behåller därför min gamla sökfunktion. När Google fungerar har den många fördelar. Men om Google inte hittar det man söker efter kan det vara värt att pröva den gamla funktionen. Att man inte hittar det man letar efter kan ju föstås också bero på att det helt enkelt inte finns på min hemsida.

 


Min gamla textsökning


Text to Search For:
Boolean: Case


 

Här kan du söka efter ord eller uttryck på min hemsida. Om du vill att alla sökorden, som du skrivit in, skall finnas med i en träff (dvs logiskt "och"), så väljer du "AND" under "Boolean". Vill du i stället att det skall räcka med att minst ett av de sökord du angett ingår, för att du skall få träff (logiskt "eller"), väljer du "OR" under "Boolean".

Har du t ex skrivit "Darwins evolutionsteori" i textfältet och sedan valt "AND", får du endast träff på de ställen där båda två orden ingår. Om du i stället valt "OR", får du träff på de ställen där ordet "Darwins" förekommer, där ordet "evolutionsteori" förekommer och där hela uttrycket förekommer.

Om du väljer "Case" till "Insensitive", så spelar små och stora bokstäver ingen roll. Har du t ex skrivit "Bibeln", så får du träff både på "bibeln" och "Bibeln". Väljer du i stället "Sensitive", skiljer sökmotorn mellan små och stora bokstäver.

Sökmotorn ger en lista över de filer på denna site, som innehåller det sökta ordet eller uttrycket, i enlighet med de sökkriterier du valt. Eftersom en fil kan innehålla många A4-sidor, underlättar det om du sedan använder "finn"-funktionen i din webläsare och där väljer ett av sökorden. Då kommer du direkt till rätt ställe och slipper bläddra fram och tillbaka. Ibland kan det givetvis finnas flera ställen i samma fil som uppfyller sökkriteriet. Då kan man använda webläsarens "sök nästa"-funktion för att stega sig fram.

Sökmotorn har inga metakaraktärer (typ *), men söker man på t ex "fartyg", så får man träff på alla ord där dessa bokstäver ingår (t ex fartygsbefäl, krigsfartyg etc).

Om du har en Macintosh kan du inte ha "Character Set" i läge "Western (MacRoman)", utan måste ha den i läge "Western (ISO-8859-1)". I fel läge hittar inte sökmotorn å, ä etc. Detta gäller i varje fall om du kör Netscape — det senare är kanske inte helt aktuellt. Jag har svårt att tro att någon idag använder Netscape. (För den som inte vet så var Netscape pionjären bland webläsare. De första versionerna av Internet Explorer var bara plagiat av Netscape. Tyvärr hade inte Netscape en chans att konkurrera med Microsoft, utan försvann så småningom.)

För att göra effektiva och snabba sökningar är det bra att känna till ungefär hur sökmotorn fungerar. Vill man söka på t ex två ord och väljer "AND" som sökkriterium, så räcker det med att de två orden förekommer någonstans i en fil för att det skall bli träff. De behöver inte stå intill varandra, utan det ena ordet kan förekomma i början av dokumentet och det andra i slutet, och de två orden behöver inte ha något samband alls. Det kan också hända att sökorden ingår som delar i helt andra och längre ord i texten. Stora filer, som innehåller mycket text, ger därför ofta helt ointressanta träffar. Så vid sökning på ett eller flera ord är det bra att ta så ovanliga, så långa och så karakteristiska ord som möjligt, och även utnyttja små och stora bokstäver (vid namn t ex). Söker man exempelvis på namnet "Öman" men har "Case" i läge "Insensitive", får man träff, inte bara på "Öman" utan även på "sjöman". Väljer man däremot "Case" till "Sensitive", så slipper man att få träff på "sjöman", eftersom vi där har litet ö.

När det gäller antal träffar, verkar den angivna siffran ibland förvirrande. Det kan stå hundra träffar på bara ett par sidor ibland. Det beror på att sökmotorn räknar på ett visst sätt. Låt mig ge ett exempel: Antag att du vill söka på "Sven Öhman". Om du skriver dessa två ord och sätter "Case" till "Insensitive", får du kanske svaret 100 träffar på en; sida. I själva verket finns namnet "Sven Öhman" kanske bara en enda gång på denna sida. Med antal träffar menar sökmotorn inte hur många gånger "Sven Öhman" förekommer, utan hur många gånger något av de två orden förekommer (eventuellt ingående i längre ord). Öhman kanske bara finns på ett ställe på den angivna sidan. Däremot så kanske bokstäverna "sven" (liten eller stor bokstav spelar ju ingen roll vid "Case" lika med "Insensitive") ingår i massor med ord (t ex "svensk"). Varje gång sökmotorn hittar dessa bokstäver registrerar den en träff. Dvs, om "Öhman" finns en gång på en sida, medan ord som inntehåller "sven" finns 80 gånger på samma sida, så anger sökmotorn 81 träffar. Det enda som krävs vid "Boolean" lika med "AND" är att båda sökorden finns minst en gång på samma sida. Inte så smart kanske, men man får anpassa sin söktaktik efter detta. Antalet träffar minskar rejält om man sätter "Case" till "Sensitive", eftersom åtskillnad då görs mellan små och stora bokstäver. Fortfarande kommer givetvis "Svenska Dagbladet" att ge en träff. Lustigt nog är det således bättre i det här fallet att enbart söka på "Öhman" med "Case" lika med "Sensitive", eftersom det inte finns speciellt många andra ord, där "Öhman" (med stort Ö) ingår som en del (jag kan inte komma på något). Vet man om ovanstående svagheter hos sökmotorn, och tar hänsyn till dem, så fungerar den faktiskt ganska bra.

Tillbaka till huvudsidan.

© Krister Renard