Johdanto

SEO (Search Engine Optimization) on digitaalisen markkinoinnin tekniikka, jonka tavoitteena on optimoida verkkosivuston näkyvyys hakukoneissa. SEO:n jatkuvien kehitysten myötä hakukoneista tulee yhä kehittyneempiä siinä, miten ne analysoivat ja indeksoivat verkkosivustoja. Yksi verkkosivustojen omistajien keskeisistä haasteista on päällekkäisen sisällön ongelmien hallinta, jotka johtuvat yleensä käyttäjien tuottamasta sisällöstä (User Generated Content - UGC).

Ymmärtää päällekkäinen sisältö

Päällekkäinen sisältö viittaa merkittäviin sisältölohkoihin, jotka esiintyvät saman sivuston sisällä tai useiden verkkotunnusten välillä ja jotka ovat joko täysin identtisiä tai muistuttavat läheisesti muuta sisältöä. Hakukoneet suhtautuvat siihen yleensä kielteisesti, koska se voi johtaa käyttäjiä harhaan ja aiheuttaa huonon käyttökokemuksen. Hakukoneiden on vaikea määrittää, mikä päällekkäisen sisällön versio on olennaisin tiettyyn hakuun, mikä voi johtaa verkkosivuston näkyvyyden heikkenemiseen hakutuloksissa.

SEO ja käyttäjän tuottama sisältö

Toisaalta käyttäjän tuottama sisältö on erinomainen tuoreen sisällön lähde, jota hakukoneet suosivat. Se voi auttaa sitouttamaan käyttäjiä, syventämään verkkosivuston sisältöä ja tuottamaan sosiaalisia signaaleja, jotka kaikki voivat parantaa SEO:ta. Toisaalta UGC tuo mukanaan useita haasteita, kuten päällekkäisen sisällön hallinnan, roskapostin, heikkolaatuiset linkit sekä tekijänoikeuteen liittyvät juridiset kysymykset.

Tarvitsetko verkkosivuston?
Pyydä ilmainen tarjous!

Verkkosivuston lainaus

Foorumien ja arvostelualustojen perintö: päällekkäinen sisältö käytännössä

Kauan ennen kuin sosiaalinen media otti vallan, varhaiset verkkokeskustelutilat – phpBB, vBulletin tai Yahoo!-ryhmät – osoittivat, kuinka nopeasti käyttäjän tuottama sisältö (UGC) voi alkaa muistuttaa toisiaan, kopioitua tai kannibalisoida. Sama kuponkikoodi kiersi, « jailbreak-opas » kopioitiin sanasta sanaan ja pelkällä copy-pastella sadat indeksoitavat URL-osoitteet näyttivät täsmälleen identtisiä tekstilohkoja. Google, jonka algoritmi vuosina 2003–2009 oli vähemmän kykeneväSEO ja käyttäjien tuottama sisältö: vinkkejä päällekkäisen sisällön ongelmien välttämiseksie erottamaan alkuperäisen lähteen, joutui suodattamaan, poistamaan indeksistä ja jopa rankaisemaan kokonaisia foorumeita. Tapaus « ThreadsJuly vuonna 2006 on yhä kuvaava: eräällä mobiilivirittelyfoorumilla 40 % sivuista menetti liikenteensä yhdessä yössä, koska hakukone katsoi niiden olevan « near duplicates . Tästä jaksosta saadut opit palvelevat edelleen Redditiä, TripAdvisoria tai CDiscountia: UGC on valtava SEO-vipu, mutta aikapommi, jos unohdetaan ainutlaatuisuuden ja toimituksellisen hallinnan käsite.

Tunnistaa käyttäjälähtöisen päällekkäisyyden todelliset lähteet

Ennen kuin otetaan käyttöön yhtäkään kanonista tunnistetta, on olennaista ymmärtää, mistä ilmiö johtuu. Kaksi skenaariota on vallitsevia:

Lainaukset ja ketjukopiointi

Arvostelusivustoilla ylistävä kommentti (« Erinomainen palvelu, suosittelen! ) ilmestyy sanasta sanaan uudelleen tuhansissa hotellisivuissa. Sama ongelma markkinapaikoilla, kun myyjät kopioivat virallisen tuotekuvauksen omaan « Kuvaus -kenttäänsä. Panda-algoritmi (2011) kohdistui juuri tähän malliin: Google rankaisi identtisten lyhyiden otteiden toistamista pikemminkin kuin täydellistä duplikaatiota. Kyse ei ollut enää pelkästään plagioinnista, vaan lisäarvosta käyttäjälle.

Erottamattomat monikieliset versiot

Monet portaalit antavat jäsenilleen julkaista saman ohjeen ranskankielisen ja englanninkielisen version yhdessä ja samassa käyttöliittymäkielessä. Ilman hreflang, Google indeksoi kaksi hyvin samankaltaista URL-osoitetta, joista kumpikin sisältää 90 % yhteistä sisältöä. SaaS-yritys Atlassian kohtasi tämän haitan vuonna 2018: sen yhteisön kirjoittama Confluence-dokumentaatio tarjosi « karkeita ja huonosti merkittyjä käännöksiä . Seurauksena FR-, DE- ja ES-versiot kilpailivat keskenään, mikä jakoi niiden backlink-potentiaalin 38 %. Yksi SEO-optimointi Verkkosivuston optimointipelkkä yhdistäminen via hreflang="x-default" ja 10 % kullekin kielelle ominaisen sisällön lisääminen ratkaisi ongelman kolmessa kuukaudessa.

SEO-diagnostiikka: tunnista duplikaatit ennen Googlea

Duplikaatioauditoinnin on yhdistettävä kolme työkalutyyppiä: sisäinen crawl, lokianalyysi ja semanttisen tiedustelun alusta.

1. Sisäinen crawl: ohjelmistot kuten Screaming Frog, OnCrawl tai Botify laskevat samankaltaisuusasteen shingling-menetelmällä. 80 %:n hälytys tarkoittaa, että kahdella URL-osoitteella on neljä viidestä lauseesta identtisiä.
2. Lokit: Googlebotin osumien frekvenssin tutkiminen osoittaa, mitkä sivut « maksavat eniten crawl-budjetissa. Piikki lähes tyhjissä URL-osoitteissa viittaa siihen, ettei ole riittävästi uniikkia arvoa oikeuttamaan tätä indeksointia.
3. Semantiikka: Google Search Consolen avulla raportti « Vaihtoehtoiset sivut, joilla on asianmukainen canonical-tunniste, kertoo epäsuorasti, missä Google on päättänyt yhdistää signaalin. Yhdistettynä kolmannen osapuolen työkaluun (Sistrix, Semrush, Ahrefs) voidaan visualisoida hakukyselyt, joilla suorituskyky laskee aina, kun kaksoiskappale ilmestyy.

Tekniset parhaat käytännöt lisääntymisen hillitsemiseksi

Oli kyseessä niche-foorumi tai kansainvälinen markkinapaikka, seuraavat ratkaisut muodostavat ei-neuvoteltavan perustan.

canonical-tunniste rel="canonical" turvaverkkona

Se ohjaa Googlea kohti « pääversiota . Ansaan kuuluu: ilmoittaa liikaa canonicaleja. Etsy ohjasi loppuvuonna 2019 tahattomasti 800 000 tuotesivua geneeriseen URL-osoitteeseen, mikä hajotti niiden LONGTAILin. Parempi muistaa sääntö: vain sivuille, jotka ovat 90 % identtisiä, ei koskaan täysin erilaisen sisällön uudelleenohjaamiseen.

Le noindex,follow strateginen

Kun käyttäjä jättää identtisenä monistuvan arvostelun, sivu voi pysyä käytettävissä käyttäjäkokemuksen vuoksi, mutta sitä ei indeksoida. Amazon käyttää tätä signaalia tuotesivujen varianteissa, jotka eroavat vain värin mukaan. Näin vältetään « thin content -ilmiö, epätyypillinen mutta vaarallinen sivustoilla, joilla on miljoonia URL-osoitteita.

Paginoinnin ja URL-parametrien hallinta

Erittäin pitkät keskustelut (20 000 kommenttia YouTubessa) vaativat pilkkomista. Google suosittelee nykyään ääretöntä scrollausta yhdistettynä URL-osoitteisiin tyyppiä ?page=2 jotka tehdään saavutettaviksi SSR:n (server-side rendering) kautta. Lisää rel="prev" / prev jos sinulla on vanha CMS; muuten yksi canonical pääsivulle riittää. Tyypillinen virhe: jokainen sivu 2, 3, 4 sisältää 90 % sivusta 1 (otsikko, navigaatio, säännöt). Ilman UGC-alueen eristämistä DOM:ssa duplikaatio on rakenteellista.

Tunnisteet hreflang ja paikalliset versiot

Kun yhteisö osallistuu useilla kielillä, yhdistä jokainen URL-osoite sen varianttiin. Puuttuminen hreflang maksoi Wikipedialle 7 % näkyvyyttä Espanjassa vuonna 2015, ennen kuin säätiö määräsi tunnisteen jokaiseen käännettyyn artikkeliin.

Toimituksellinen moderointi ja yhteisön ohjeistukset

Tekniikka on vain yksi osa ratkaisua. Ilman selkeää ohjesääntöä käyttäjä toistaa sen, minkä tuntee. Tässä kolme akselia:

• « yleisfraasien automatisoitu poistaminen. Medium käyttää stop-phrase-suodatinta: « Nice article , « Thanks for sharing . Nämä viestit hyväksytään, mutta ne ovat Googlelle näkymättömiä (they are wrapped in