| |
E-News
O que fazer para publicar grandes volumes de documentos na Internet ou na sua Intranet
18/08/2004
Toda organização acaba juntando um grande acervo de documentos, na maior parte em papel. Esse acervo fica “enterrado” em arquivos, organizados de forma que, na maioria das vezes, é difícil e demorado encontrar o que se deseja. Esses arquivos normalmente têm “donos”, que não costumam facilitar as coisas para os usuários da informação. O resultado final é que esse corpo de conhecimento acaba ficando esterilizado e sua utilidade é muito pequena para a organização.
Felizmente, o avanço da informática já permite resolver esse tipo de problema de forma rápida e eficiente: a “publicação” desses acervos na Internet ou em Intranet – para efeito desse artigo, estamos desconsiderando o problema da segurança contra acesso indevido, especialmente no caso de publicação na Internet, por que esse assunto merece tratamento à parte, que fugiria ao escopo desse artigo. O custo de tal “publicação” é hoje muito baixo: uns poucos centavos por página publicada.
Para conseguir tal intento, alguns desafios precisam ser superados. Vamos aqui detalhar alguns deles.
1. Como transformar originais em papel ou em micro-filme em arquivos digitais
Esse é o primeiro passo a ser resolvido, a transformação de originais em papel ou em micro-filme em arquivos digitais, o que é trabalhoso no caso de volumes muito grandes de documentos. Felizmente, hoje já existem scanners de alta produção para fazer esse tipo de atividade e muitas empresas especializadas em digitalização de documentos, caso a organização deseje terceirizar esse trabalho. O processo de digitalização permite tratar a qualidade da imagem – remoção de manchas, ajuste de foco, rotação da imagem, etc, para que o produto final seja da melhor qualidade. Permitem também comprimir os arquivos gerados, para reduzir o tamanho do espaço de memória necessário para guardar essas imagens.
O segundo passo é transformar as imagens digitais em arquivos-texto, cujo conteúdo pode ser reconhecido e tratado pelo computador. É aí que entra o OCR (Optical Character Recognition), software que permite fazer essa conversão de forma automática. O problema com o OCR é que não se consegue acerto de 100% nessa transformação – o índice de erro varia muito com o tipo de original, do tipo de letra, etc. Antes, a forma de resolver esse problema era verificar o resultado obtido, página por página, e corrigir manualmente os erros, processo lento e extremamente custoso. Hoje, há modos eficientes de contornar esse problema, a custos muito baixos, conforme veremos adiante.
2. Criando mecanismos eficientes para localizar os arquivos digitais.
Agora que todos os documentos já estão digitalizados, é preciso potencializar a capacidade de usar todo o texto dos documentos para criar índices de busca – o que é chamado de “full text indexing”. Cada palavra – com exceção de algumas previamente estabelecidas, como artigos e preposições – vira automaticamente uma palavra-chave que pode ser pesquisada. Esse imenso conjunto de palavras-chave é então organizado automaticamente e com grande velocidade em taxonomias – estruturas de categorias para classificação – montadas de forma hierarquizada, a partir de regras de negócio pré-estabelecidas (p.ex. se falar de tal assunto, junto com tal nome, coloque na pasta tal...) ou mesmo exemplos positivos e negativos de documentos anteriormente classificados. Como fruto disto tudo, determinado documento pode ser classificado de inúmeras formas diferentes, o que torna o processo de busca muito eficiente.
Os recursos para busca de documentos são hoje muito avançados – pode ser fazer consultas até com base na linguagem que naturalmente usamos. A pesquisa pode ser feita em diferentes línguas ao mesmo tempo e considerar recursos de sintaxe. Em particular, é muito útil o recurso que aceita pequenas diferenças de grafia entre a palavra fornecida como base para busca e aquelas armazenadas como índices. Os softwares modernos têm recursos para aceitar essas diferenças e devolver a resposta certa. Isto resolve totalmente o problema da imperfeição do OCR, que comentamos acima, sem que haja necessidade de fazer correção manual. Por ex., se o OCR, em algum lugar, entendeu a palavra “Brasil” erradamente e registrou “Bresil”, quando o usuário fizer a consulta e digitar “Brasil”, o software devolverá todas as incidências de “Brasil” (onde a palavra foi entendida corretamente pelo OCR) bem como aquelas de “Bresil”. Com isto, todos os documentos desejados serão encontrados, sem problema.
Concluídas essas etapas e uma vez encontrado o documento desejado, o computador apresenta a imagem do documento proveniente da digitalização , pois esta é absolutamente fiel ao original. O usuário vê esta imagem num simples browser, esteja onde estiver.
Finalmente, é preciso arquivar essas imagens e índices adequadamente, descartar os documentos que atingirem seu limite do ciclo de vida, atualizar o conteúdo de documentos (revisão), permitir a comparação do conteúdo de diferentes versões de documentos e assim por diante. Esses são recursos de gerenciamento de conteúdo e podem ser usados automaticamente, caso a organização disponha dos softwares adequados.
Alguns tipos de aplicações que começam a se tornar conhecidas em nosso país – já são bem comuns em países mais avançados – e que fazem extenso uso dessas tecnologias são as seguintes:
· Legislação (leis, decretos, regulamentações, etc) e/ou diários oficiais para acesso pelo público em geral;
· Literatura técnica (manuais, especificações, artigos científicos, etc) para acesso pelo pessoal técnico da própria organização, clientes ou público em geral.
· Normas e outros regulamentos internos (recursos humanos, segurança, benefícios, etc) para acesso pelos funcionários.
· Clipping de notícias de negócios para analistas de instituições financeiras.
Por isto tudo, já não há mais razão para manter acervos extremamente úteis “enterrados” em arquivos que poucos usam ou têm acesso. A vantagem de democratizar o acesso à informação é tão grande que dispensa maiores comentários. O grande impedimento de antes – o custo – agora já foi superado, como sempre acontece, a medida que o uso das tecnologias se populariza. Não é à toa, que recente pesquisa conduzida pelo grupo Delphi, nos Estados Unidos, mostrou que cerca de 60% das empresas já publicou seu acervo dessa forma, ou está em vias de fazer isto.
Veja no “Conteúdo Relacionado” algumas tecnologias e/ou produtos que podem auxiliá-lo nesta ação.
Conteúdo Relacionado
| Voltar
|
|
|