::::: Image Pro :::::

E-News

	Localizar:

Um problema freqüente: como encontrar as informações desejadas
19/07/2005

O que fazer quando as informações desejadas estão nos “silos” de informações internos às organizações, como servidor de e-mails, “file systems” ou ainda banco de dados relacionais? Serviços como Google e outros não ajudam nesse caso e os recursos normalmente disponíveis nos sistemas convencionais dificilmente atendem à demanda.

Tal problema se torna cada vez mais grave face ao enorme volume de informações que chegam e/ou saem diariamente das organizações. E são informações sob todas as formas: emails, fotos, páginas da Internet, documentos em geral, planilhas, registros de bancos de dados, etc. Cada uma delas precisa ser classificada adequadamente para que estejam disponíveis quando se precisar delas. Isto é não é fácil de fazer, tanto por causa do volume de informações como pela complexidade das referencias que precisariam ser criadas para facilitar encontra-las posteriormente. Assim, é cada vez mais comum os usuários saberem que a informação existe, mas não conseguirem encontrá-la em tempo, apesar dos esforços. Ou que é pior: nem se sabe que a informação existe, quando mais se precisa dela.

Documentos estruturados e não estruturados:
diferença que faz a diferença

Quando os documentos são estruturados, como o caso de registros de banco de dados, o problema é mais simples, pois a própria estrutura do banco normalmente fornece os índices necessários para se localizar o que se deseja. O problema, nesse caso, é que se trata de índices pouco flexíveis e que tornam o processo de pesquisa e classificação bem tedioso.

Mas, no caso de documentos não-estruturados o problema é significativamente mais complexo. Como classificar uma carta ou um email para busca posterior? Alternativas comuns são: pelo título (pode não ser suficientemente esclarecedor), por quem mandou (pode ser pouco relevante ou ainda pouco esclarecedor), pela data (pode-se não lembrar ao certo qual a data desejada). Dificilmente isto é suficiente. Na verdade, precisamos ter um meio de classificar o documento pelo conteúdo.

Imaginemos um outro caso interessante: um jornal que precisa arquivar milhares de fotos que tira diariamente. A resposta natural a essa demanda seria agregar uma legenda a cada foto. Mas, uma foto muitas vezes tem um conteúdo muito rico e apenas uma simples legenda pode não ser suficiente. Que tal então um pequeno texto descrevendo em detalhe aquilo que lá está? Caímos de volta num documento não-estruturado, que precisa ser classificado de alguma forma, pelo seu conteúdo.

Uma ajudinha divina

Esse problema é tão sério que hoje há empresas que vivem unicamente da prestação de serviços voltados para criar sentido nas massas de informações existentes. É um mercado em expansão e alguns dos participantes têm perfil inesperado. Vejamos o caso da empresa The Electronic Scriptorium, Ltd (www.electronicscriptorium.com): a empresa usa mão de obra de monges para desenvolver esse trabalho brutalmente tedioso. A tese é que essa é uma mão de obra qualificada, diligente e altamente disciplinada, com baixíssima rotatividade, ideal, portanto, para o trabalho proposto - aliás, a inspiração veio da História, pois foram os monges que se dedicaram por séculos a copiar os originais de obras literárias, antes da invenção da imprensa
Esse não é o única caso: diversos mosteiros e conventos fornecem o mesmo tipo de serviço, para um mercado cuja demanda não para de crescer (os interessados podem encontrar mais informações no artigo “Divine help for the creation of large data banks”, em www.cnn.com).

Uma ajudinha de fontes mais mundanas

Caso sua empresa não possa convocar monges ou freiras para ajudar, a alternativa é usar a própria tecnologia. Há recursos que permitem capturar informações que nasceram em meio não eletrônico (como formulários em papel) e transformá-las em dados digitais, por exemplo através de scanners acoplados a softwares para reconhecimento de caracteres (OCR e/ou ICR).

Depois há softwares que permitem ler textos digitais, estejam eles no formato que estiverem (texto, Word, Excel, pdf, etc) e “entender” o que leram. Com base nesse “entendimento” criam automaticamente índices que permitem a classificação do conteúdo sendo tratado - informações referentes a autor, título, data, etc, também são capturadas ao longo do processo e usadas para essa classificação.

Esses índices podem ser grupados por assuntos, em taxonomias, palavra meio feia mas que apenas significa uma estrutura para classificar documentos que segue determinada lógica (exemplo: por região, por produto ou pelos dois, começando pelo produto). Os softwares realmente profissionais são capazes de automaticamente classificar cada documento, com base nos índices criados para ele (a partir do seu texto), de acordo com essa estrutura lógica (taxonomia) pré-definida. Para tanto, pode-se até “treinar” o software dando-lhe exemplos positivos e negativos do que fazer em cada instância de classificação.

Além disto, são fornecidos recursos para facilitar a busca, como: aceitar erros de digitação feitos por quem pergunta, lançar perguntas em linguagem próxima da natural, obter recomendações de documentos do software para complementar os resultados obtidos na pesquisa básica, etc.

Esses resultados da pesquisa são apresentados numa única página de respostas, não importando onde a informação está localizada (servidor de email, banco de dados, file system, etc). Assim, finalmente se pode obter uma resposta de fato para a seguinte questão: juntar tudo que a organização tem sobre tal e tal assunto ou fato. E essa resposta pode ser dada no portal corporativo, em telas de sistemas legados, ou onde mais for necessário.

Certamente monges e freiras vão continuar a prestar seus serviços – afinal há coisas que o ser humano sempre faz melhor - como reconhecer o que está numa foto e escrever um texto sobre o que foi visto - mas a tecnologia estará cada vez mais presente para resolver o problema de ajudar às organizações a organizar e garantir o acesso às informações disponíveis.

| Voltar |