<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>marlonguerios.com &#187; Text Analysis</title>
	<atom:link href="http://www.marlonguerios.com/tags/desenvolvimento/text-analysis/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.marlonguerios.com</link>
	<description>Site de Marlon Candido Guérios - Ottawa - ON - Canada</description>
	<lastBuildDate>Wed, 13 Jul 2011 16:29:15 +0000</lastBuildDate>
	<language>pt</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>Lucene SandBox &#8211; Vale a pena abrir esta caixa</title>
		<link>http://www.marlonguerios.com/2006/lucene-sandbox-vale-a-pena-abrir-esta-caixa/</link>
		<comments>http://www.marlonguerios.com/2006/lucene-sandbox-vale-a-pena-abrir-esta-caixa/#comments</comments>
		<pubDate>Tue, 14 Mar 2006 11:51:54 +0000</pubDate>
		<dc:creator>Marlon Guerios</dc:creator>
				<category><![CDATA[Desenvolvimento]]></category>
		<category><![CDATA[Java]]></category>
		<category><![CDATA[Text Analysis]]></category>

		<guid isPermaLink="false">http://web.marlonguerios.com/2006/lucene-sandbox-vale-a-pena-abrir-esta-caixa/</guid>
		<description><![CDATA[Para quem utiliza o Lucene como mecanismo de busca textual aí vai uma dica: existe uma seção no site chamada Lucene Sandbox que pode passar desapercebida por quem está iniciando no desenvolvimento com o Lucene. Nesta seção existem várias classes e ferramentas valiosas e que o permitirão poupar de ter que reinventar a roda. Um [...]]]></description>
			<content:encoded><![CDATA[<p><img align="right" src="http://lucene.apache.org/java/docs/images/lucene_green_300.gif" />Para quem utiliza o Lucene como mecanismo de busca textual aí vai uma dica: existe uma seção no site chamada Lucene Sandbox que pode passar desapercebida por quem está iniciando no desenvolvimento com o Lucene.</p>
<p>Nesta seção existem várias classes e ferramentas valiosas e que o permitirão poupar de ter que reinventar a roda. Um detalhe interessante é que é disponilizado o código fonte e não apenas o arquivo compilado. Assim é possível conhecer a implementação e até contribuir para sua melhoria.<span id="more-21"></span></p>
<div style="float: right"><!--adsense#inside_topic_120_240--></div>
<p>A lista de ferramentas e classes disponíveis é a seguinte:</p>
<ul>
<li>Snowball Stemmers for Lucene</li>
<ul>
<li>Stemmers baseados no Snowball</li>
</ul>
<li>Analyzers, Tokenizers, and Filters</li>
<ul>
<li>Analisadores para diversos idiomas, incluindo português brasileiro</li>
</ul>
<li>Ant task</li>
<ul>
<li>Task ANT para trabalhar com Lucene</li>
</ul>
<li>Wordnet/Synonyms</li>
<ul>
<li>Classe para utilização de sinônimos Wordnet em buscas</li>
</ul>
<li>Lucli &#8211; Lucene Command-line Interface</li>
<ul>
<li>Ferramenta de linha de comando</li>
</ul>
<li>Term Highlighter</li>
<ul>
<li>Destaque dos termos buscados</li>
</ul>
<li>Javascript Query Constructor</li>
<ul>
<li>Biblioteca javascript para construção de consultas. Suporta interface de usuário similar a página de busca avançada do Google</li>
</ul>
<li>Javascript Query Validator</li>
<ul>
<li>Validação por javascript da string de consulta antes de enviar a consulta para o servidor</li>
</ul>
<li>High Frequency Terms</li>
<ul>
<li>Analisa os termos mais frequentes de um índice</li>
</ul>
</ul>
<p>Dentre estas, destaco três classe muito interessantes aos brasileiros:</p>
<ul>
<li>BrazilianStemmer.java</li>
<li>BrazilianTokenFilter.java</li>
<li>BrazilianAnalyzer.java</li>
</ul>
<p>Com estas três classes é possível realizar a indexação de textos em português brasileiro sem se preocupar se serão devidamente tokenizados, se as stop words serão devidamente consideradas.</p>
<p>Foram desenvolvidas com base na versão alemã destas classes e funcionaram muito bem nos testes realizados por mim.</p>
<p>Para acessar as classes específicas para o português do Brasil:</p>
<p><a target="_blank" href="http://svn.apache.org/repos/asf/lucene/java/trunk/contrib/analyzers/src/java/org/apache/lucene/analysis/br/">http://svn.apache.org/repos/asf/lucene/java/trunk/contrib/analyzers/src/java/org/apache/lucene/analysis/br/</a></p>
<p>Para saber mais sobre o Lucene SandBox:</p>
<p><a target="_blank" href="http://lucene.apache.org/java/docs/lucene-sandbox/">http://lucene.apache.org/java/docs/lucene-sandbox/</a></p>
<p>Página oficial do Lucene:</p>
<p><a target="_blank" href="http://lucene.apache.org">http://lucene.apache.org</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.marlonguerios.com/2006/lucene-sandbox-vale-a-pena-abrir-esta-caixa/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

