Internet bubblar av prat om effekterna av Googles senaste uppdatering, Panda.

Av allt det material som finns på nätet så fann jag en video där Rand Fishkin pratar om uppdateringen på engelska som jag tycker är väldigt bra, du hittar en länk till den i slutet av blogginlägget. Det uttalande målet är att ranka ned webbplatser vars innehåll är ”dåligt”. Exakt vad som är dåligt är ett extremt komplext problem att lösa. Det är här Googles stjärnskott Navneet Panda har kommit in i bilden. Han är den som gjort att Google kunnat snabba upp sin maskininlärningsalgoritm, därför har han fått ge namn åt deras uppdatering. Jag är nog inte ensam om att ha trott att Google syftat på djuret panda. Det är inte första gången Google gör så här. Det som gjorde att Google slog knock på sina konkurrenter var deras revolutionerande Page Rank, en rankingalgoritm som ger sidor värde utifrån hur många länkar de får men där Page inte betyder sida utan kopplingen är att algoritmen skapats av en av Googles grundare, Larry Page. Sen misstänker jag att Larry Page är väldigt nöjd med den dubbla betydelse hans efternamn skapat.

Vad är det då som Google har gjort nu? De har satt upp någon form av lärande algoritm, själv skrapade jag på ytan av dessa algoritmer när jag studerade på KTH och de är fascinerande. För de som vill fördjupa sig i ämnet rekommenderar jag Wikipedia som utgångspunkt:
http://en.wikipedia.org/wiki/Machine_learning_algorithms
Algoritmen som fascinerade mig mest var artificiella neuronnät vars grundteori är så otroligt enkel men där resultatet blir väldigt, väldigt komplext.

Google har använt en stor grupp människor som har fått i uppgift att bedöma om en sida är bra eller dålig utifrån ett stort antal frågor. Frågorna är inte släppta men exempel på frågor är:

  • Skulle du lita på webbplatsen med din kreditkortsinformation?
  • Skulle du använda medicinska råd från webbplatsen?
  • Anser du att sidan har en för stor andel annonser?

Tillsammans med dessa svar får algoritmen också en mängd signaler om webbplatsen, tänkbara exempel skulle kunna vara HTML-koden för sidan, screen shot och besöksstatistik.

Algoritmen viktar sen alla dessa svar så att den ska kunna ta emot en webbsida och tala om hur kvalitetsgruppen skulle svarat på frågorna för den webbplatsen. Så nu har Google alltså gjort en artificiell kvalitetsgrupp, d.v.s. istället för att låta gruppen titta på alla sidor på Internet så har nu Google en algoritm som får göra det och som kommer svara om inte exakt så i alla fall väldigt nära hur kvalitetsgruppen skulle gjort.

När detta lades till Googles övriga algoritmer i det som i folkmun ofta benämns som Googles algoritm d.v.s. den algoritm som i slutänden ger ifrån sig vilken ranking en sida får så blev det en del stora förändringar bland sökresultaten. Google själva säger att den ska påverka 6-9% av sökningarna.

Vad är det den nya algoritmen har lärt sig?

Ingen vet säkert men ett av problemen som Googles ingenjörer försökt lösa är att spammare har gått ifrån att använda automatskapat innehåll som faktiskt inte har någon mening till att istället anställa skribenter som skriver prosa. Det kanske inte låter som någon stor skillnad men rent algoritmiskt är det svårare att identifiera en sammanhängande prosa som innehåll som är av lågt värde för besökaren än det är att identifiera en text vars meningar är korrekta men inte hänger ihop.

En teori, som jag är rätt övertygad om stämmer, är att Google nu tar hänsyn till layout och utseende hos en webbplats. T.ex. om det finns tydliga menystrukturer, om det är enkelt att navigera eller ifall det finns auktoritära källor angivna. Sätt dig själv in i den här kvalitetsgruppens situation när de får frågan ”skulle du anförtro denna webbplats din kreditkortsinformation?”. Att sidans utseende inte skulle spela någon roll när man ställer en sådan fråga finner jag rätt osannolikt. Det här är en fråga som e-handlare brottas med hela tiden: hur man ger användare en känsla av trygghet så att de vågar handla i butiken. Nu har det med största sannolikhet till och med blivit en rankande faktor eller en faktor som om man inte uppfyller den kan innebära nedvärdering.

Det som gör allt det här så svårt att greppa är att man som vanlig dödlig sällan tänker på flerdimensionella svarsplan i en flerdimensionell rymd. Och det är där som Googles nya drag ligger. Vad det betyder är att man inte kan titta på varje enskild parameter och testa den. Att svarsplanet är flerdimensionellt medför att svaren är kombinationer av samtliga parametrarna. Men maskininlärning och hur det fungerar är något som varit känt länge. Googles problem har just varit att få algoritmen att svälja den mängd information som krävs för att den ska bli tillräckligt lärd för att de ska kunna använda den. Det påvisar lite hur många parametrar de använt och hur många frågor som kvalitetsgruppen fått svara på.

Största frågorna från webmasters och webbplatsägare just nu är: Vad ska man göra för att inte bli nedvärderad? Det finns inget enkelt svar på detta men ett viktigt steg att ta är att man installerar ett analysverktyg och börjar titta på sin sidas besöksstatistik. Exempelvis hur länge besökare stannar och hur många sidor de besöker. Svårigheten ligger i att man måste jämföra dem med något och då är det viktigt att jämföra mot statistik från andra sidor av samma typ. Ett lågt antal sidor per besök för en typ av sidor kan mycket väl vara väldigt högt för en annan typ av sidor. Så har man en företagssida som är mest informativ och ligger inom tjänstesektorn så är det den typ av sidor man måste jämföra med.

Det som gör det svårt att utvärdera vad som är Google Panda är det faktum att Google samtidigt som de rullar ut den här uppdateringen även gör en massa andra värderingar. Google jobbar alltid med att försöka få bort spam och annat oönskat ur sitt index och det kommer dröja ett tag innan bilden av vad som faktiskt är Panda blir helt klar. Men för oss som jobbar med SEO så kommer kartläggningen av Panda vara en av de viktigaste uppgifterna framöver.

En väldigt bra engelsk beskrivning av Panda kommer från Rand Fishkin i form av denna video:

http://www.seomoz.org/blog/how-googles-panda-update-changed-seo-best-practices-forever-whiteboard-friday