<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Debugando.com &#187; indexação</title>
	<atom:link href="http://www.debugando.com/tag/indexacao/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.debugando.com</link>
	<description>Noticias, dicas e tutorias do mundo da Tecnologia.</description>
	<lastBuildDate>Thu, 01 Dec 2011 23:44:46 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<xhtml:meta xmlns:xhtml="http://www.w3.org/1999/xhtml" name="robots" content="noindex" />
		<item>
		<title>Como o Google entende seu texto</title>
		<link>http://www.debugando.com/como-o-google-entende-seu-texto/</link>
		<comments>http://www.debugando.com/como-o-google-entende-seu-texto/#comments</comments>
		<pubDate>Fri, 28 Nov 2008 11:43:29 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Tecnologia]]></category>
		<category><![CDATA[busca]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[indexação]]></category>
		<category><![CDATA[web]]></category>

		<guid isPermaLink="false">http://www.debugando.com/?p=8</guid>
		<description><![CDATA[



Se você gosta de Web Writer, essa é uma boa hora para conhecer como os mecanismos de busca processam o seu texto, e como você pode escrever um bom texto entendendo essa lógica. Esses conceitos são conhecidos por poucas pessoas aqui no Brasil, então sinta-se privilegiado ao final da leitura.
Não serei muito técnico para não [...]]]></description>
			<content:encoded><![CDATA[<div id="strConteudo">
<p>Se você gosta de <a class="ext" href="http://imasters.uol.com.br/secao/webwriting/"><span style="color: #515151;">Web Writer</span></a>, essa é uma boa hora para conhecer como os <strong>mecanismos de busca</strong> processam o seu texto, e como você pode escrever um bom texto entendendo essa lógica. Esses conceitos são conhecidos por poucas pessoas aqui no Brasil, então sinta-se privilegiado ao final da leitura.</p>
<p>Não serei muito técnico para não deixar o texto cansativo, todos os conceitos que explicarei abaixo vou dar exemplos práticos como influem diretamente no seu <strong>HTML.</strong></p>
<p>Para começar você deve saber o que é IR (<strong>Information retrieval</strong>) ou <strong>Recuperação da Informação</strong> para nós. É uma área da Ciência da Informação que está por trás do tratamento e busca por dados e meta dados em documentos.</p>
<p>É de fundamental importância que analistas <a class="ext" href="http://imasters.uol.com.br/secao/seo/"><span style="color: #515151;">SEO</span></a> e SEM entendam os princípios básicos de IR para não bolarem teorias mirabolantes sem base técnica, como acontece e muito nos Estados Unidos. Muitos profissionais de Marketing sem conhecimento de <strong>Ciência da Informação</strong> bolam teorias de SEO com base em testes, só que montar uma teoria somente por percepção abre uma grande brecha para erros e dupla interpretação.</p>
<h3>Etapas de Representação de dados de um Site pelos Mecanismos de Busca</h3>
<h4>Indexação</h4>
<p>Durante o processo de Arquivamento da página (ou indexing) esse documento é preparado para uso por um sistema de IR. O site está todo cru para o sistema, cheio de tags, metatags, caracteres especiais, pontuações etc. Os sistemas precisam do conteúdo todo limpo para poder entender o que a sua página está falando. Então ele transforma o seu documento em uma representação de texto. Nesse processo ele cria duas bibliotecas: uma para expressões regulares e outra para <strong>stop words</strong> (palavras comuns, ex: que, de, etc.). Também seta alguns filtros e parsers (processadores).</p>
<h4>Passos da Indexação</h4>
<h4>Linearização do Documento</h4>
<p>É o processo onde o documento é reduzido somente a termos em minúsculo e sem pontuação. O sistema remove todas as tags HTML, toda a pontuação e acentuação, caracteres especiais e espaços.</p>
<p>O processo onde o texto é tratado após a remoção da marcação é conhecido como Tokenização.Na <strong>tokenização</strong> o computador é instruído a entender que aquela seqüência de bytes é uma palavra separada da outra. Alguns usam hífen, outros não.</p>
<p>Durante a linearização o <span class="c1"><strong>CSS</strong></span> é removido. Logo, você percebe que se o seu HTML não estiver em ordem, o buscador vai ter em um primeiro momento uma informação desconexa e poderá entender errado o seu texto. Se você fez pirotecnia no css, mandando um texto que está em primeiro no HTML para o rodapé do site, já está no caminho errado. Por isso a importância do envolvimento de todas as áreas de desenvolvimento no trabalho de SEO.Se você tem um fluxo de informação coerente no seu HTML, na hora que o sistema de IR deixar “pelado” o seu site você estará tranqüilo, pois o carregamento da informação se dará de forma correta. Com os temas das informações sendo coerentes com tópicos e sub tópicos. O <strong>posicionamento do texto</strong> no seu carregamento na linearização se dá pela sua marcação HTML.</p>
<p>Quando há erros nesse fluxo o índice é avaliado erroneamente, alguns buscadores simplesmente ignoram os erros e você <span style="text-decoration: underline;">perde peso</span> nessas determinadas áreas da sua página.</p>
<h4>Filtragem</h4>
<p>Neste processo o sistema faz a escolha dos termos que irão “representar” o seu documento, descrevendo o conteúdo e diferenciando a sua página das demais já arquivadas no banco de dados.</p>
<p>É nessa hora que as stop words são ignoradas da representação do texto, pois elas são palavras muito comuns presentes em milhares de textos, se elas fossem levadas em consideração a relevância seria afetada, porque elas não trazem a maior densidade de informação. Essa remoção se dá de forma padronizada, no começo da indexação o sistema cria uma biblioteca de termos muito usados e só os ignora nas representações posteriores como na Filtragem.</p>
<h4>Deixando os talos</h4>
<p>Aqui os termos irão ser reduzidos aos “talos”. O sistema detona as variações. Exemplo: as palavras “pensamos”, “pensais” e “pensam” vão virar somente “pensa”. Nem todos os sistemas usam o mesmo tipo de algoritmo para redução de termos.</p>
<p>Os mecanismos de busca fazem isso para economizar espaço, é uma maneira de reduzir o processamento e indexar mais páginas rapidamente. Existem várias complicações para esse processo que eu particularmente desconheço.E se você está se perguntando: e o que acontece com as variações? Lembre que é só uma representação do seu texto.</p>
<h4>Pesos e Rankeamento</h4>
<p>Esse é o último passo na maioria de sistemas IR da representação de texto da sua página, é onde os termos “talos” recebem pesos que podem ser atribuídos de diferentes formas, e é exatamente aqui que muitos analistas SEO e SEM começam a “chutação” com teorias mirabolantes como a de <a class="ext" href="http://www.seocast.com.br/keyword-density/"><span style="color: #515151;">Keyword Density</span></a>.</p>
<p>Quanto mais peso nos elementos on-page mais chances de posicionar o seu site em primeiro lugar nos buscadores, como o Google. Pois alguns fatores e elementos você não pode controlar, agora esses elementos é mais que seu dever como desenvolvedor fazer um bom trabalho.Nos próximos artigos aqui no iMasters vou abordar o que realmente sabemos sobre esses pesos e é nesse ponto que a coisa começa a ficar interessante para escrevermos textos competitivos e com grande densidade de peso nos elementos na página.</p>
<h5>Referências:</h5>
<p><a class="ext" href="http://www.miislita.com/"><span style="color: #515151;">Mi is lita</span></a></p>
<p><a class="ext" href="http://en.wikipedia.org/wiki/Information_retrieval"><span style="color: #515151;">Information Retrieval</span></a></div>
]]></content:encoded>
			<wfw:commentRss>http://www.debugando.com/como-o-google-entende-seu-texto/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

