Abstrato

A disponibilidade de sequências do genoma humano e dados transcriptômicos, proteômicos e metabolômicos nos oferece uma oportunidade desafiadora de desenvolver
abordagens computacionais para análise sistemática de distúrbios metabólicos. A espectrometria de massa representa um conjunto importante de tecnologias in vivo para a medição da expressão proteica. Entre eles, a espectrometria de massa de tempo-de-voo de dessorção / ionização por laser de superfície (SELDI TOF-MS), devido à sua alta capacidade de processamento e processamento de amostras no chip, tornou-se uma ferramenta popular para proteômica clínica. A bioinformática desempenha um papel crítico na análise dos dados do SELDI e, portanto, é importante entender os problemas associados à análise de dados proteômicos. Existe uma variedade de bancos de dados de seqüências de proteínas, variando de simples repositórios de sequências, que armazenam dados com pouca ou nenhuma intervenção manual na criação dos registros, para bancos de dados universais habilmente selecionados que cobrem todas as espécies e nos quais os dados da sequência original são aprimorados pela adição manual de informações adicionais em cada registro de sequência. À medida que o foco dos pesquisadores se desloca do genoma para as proteínas codificadas por ele, esses bancos de dados desempenham um papel ainda mais importante como recursos abrangentes centrais da informação proteica. Nesta revisão, discutimos tais questões e as estratégias de bioinformática e vários bancos de dados principais de seqüências de proteínas usadas para tecnologias de análise proteômica in silico associadas a técnicas in vivo. e em que os dados da sequência original são aprimorados pela adição manual de informações adicionais em cada registro de sequência. À medida que o foco dos pesquisadores se desloca do genoma para as proteínas codificadas por ele, esses bancos de dados desempenham um papel ainda mais importante como recursos abrangentes centrais da informação proteica. Nesta revisão, discutimos tais questões e as estratégias de bioinformática e vários bancos de dados principais de seqüências de proteínas usadas para tecnologias de análise proteômica in silico associadas a técnicas in vivo. e em que os dados da sequência original são aprimorados pela adição manual de informações adicionais em cada registro de sequência. À medida que o foco dos pesquisadores se desloca do genoma para as proteínas codificadas por ele, esses bancos de dados desempenham um papel ainda mais importante como recursos abrangentes centrais da informação proteica. Nesta revisão, discutimos tais questões e as estratégias de bioinformática e vários bancos de dados principais de seqüências de proteínas usadas para tecnologias de análise proteômica in silico associadas a técnicas in vivo.Palavras-chaveproteinchip, dessorção a laser de superfície / espectrometria de massa de tempo de vôo de ionização (SELDI-TOF MS), bioinformática, proteômica, in vivo, in silico
Como citar este artigo:
RAHIM F. BIOINFORMÁTICAS E ABORDAGENS PROTEÔMICAS À DOENÇA: FERRAMENTAS DE ANÁLISE PROTEÔMICA IN VIVO E SILICO. Jornal de Pesquisa Clínica e Diagnóstica [serial on-line] 2008 junho [citado: 2018 29 de agosto]; 2: 879-886. Disponível em
http://www.jcdr.net/back_issues.asp?issn=0973-709x&year=2008&month=June&volume=2&issue=3&page=879-886&id=267

IntroduçãoUm dos principais objetivos da era pós-genômica compreende as estruturas, interações e funções de todas as proteínas celulares. Como o proteoma celular é um perfil dinâmico, sujeito a alterações em resposta a vários sinais por meio de modificações pós-translacionais, translocação e interação proteína-proteína e proteína-ácido nucléico, a tarefa torna-se ainda mais complexa, chegando a um milhão ou mais de eventos de modificação. A proteômica engloba o estudo de proteínas expressas, incluindo a identificação e elucidação das inter-relações estrutura-função, que definem condições saudáveis e de doença. A informação no nível do proteoma é fundamental para entender a função do fenótipo celular e seu papel na saúde e na doença. Desde eventos pós-traducionais, e de fato, uma avaliação precisa dos níveis de expressão proteica nem sempre pode ser prevista pela análise de mRNA, a proteômica, usada em conjunto com a genômica, pode fornecer uma compreensão holística da biologia subjacente ao processo da doença. O desafio de decifrar o proteoma é o desenvolvimento e integração de instrumentação analítica combinada com bioinformática, que fornece ferramentas rápidas, de alto rendimento, sensíveis e reproduzíveis. O avanço contínuo na pesquisa proteômica levou a um influxo de seqüências de proteínas de uma ampla gama de espécies, representando um desafio no campo da bioinformática. O sequenciamento do genoma também está ocorrendo a uma taxa cada vez mais rápida, e isso levou a um aumento igualmente rápido nas seqüências de proteínas previstas. Todas estas sequências, tanto derivadas experimentalmente como previstas, precisam ser armazenadas em bancos de dados de seqüências de proteínas não redundantes. Além disso, eles precisam ser reunidos e analisados para representar uma base sólida para futuras comparações e investigações. Especialmente as seqüências humanas, mas também as do mouse e outros organismos modelo, são de interesse para os esforços no sentido de uma melhor compreensão da saúde e da doença. Um instrumento importante é a análise proteômica in silico. O termo proteoma é usado para descrever a proteína equivalente do genoma. A maioria das sequências proteicas previstas carece de uma caracterização funcional documentada. O desafio é fornecer análises estatísticas e comparativas e informações estruturais e outras para essas seqüências como um passo essencial para a análise integrada de organismos nos níveis de gene, transcrição, proteína e funcional. Especialmente, proteomas inteiros representam uma fonte importante para comparações significativas entre as espécies e, além disso, entre indivíduos de diferentes estados de saúde. Para explorar plenamente o potencial desta vasta quantidade de dados, são necessárias ferramentas para a análise proteômica in silico. Neste artigo, serão descritas algumas fontes importantes para a análise de proteoma, como bancos de dados de seqüências e ferramentas de análise, que representam ferramentas proteômicas altamente úteis para a descoberta da função proteica e caracterização de proteínas.
Material e métodos

Técnicas in vivoAgora que o genoma humano está completo, a caracterização das proteínas codificadas pela seqüência continua sendo uma tarefa desafiadora. O estudo do complemento proteico completo do genoma, o proteoma, chamado de proteômica, será essencial se novas drogas terapêuticas e novos biomarcadores de doenças para o diagnóstico precoce forem desenvolvidos. Esforços de pesquisa já estão em andamento para desenvolver a tecnologia necessária para comparar os perfis específicos de proteínas de estados doentes versus não doentes.
Eletroforese em gel 2D: A eletroforese
em gel bidimensional (2DE) é, de longe, a ferramenta mais usada em abordagens proteômicas há mais de 25 anos (1). Esta técnica envolve a separação de misturas complexas de proteínas, primeiro com base no ponto isoelétrico (pi) usando foco isoelétrico (IEF) e, em seguida, em uma segunda dimensão, com base na massa molecular. As proteínas são separadas por migração em um gel de poliacrilamida. Através da utilização de diferentes técnicas de coloração de gel tais como coloração com prata (2) , corante azul de Coomassie, corantes fluorescentes (3) ou marcadores radioactivos, poucas milhares de proteínas podem ser visualizadas num único gel. Corantes fluorescentes estão sendo desenvolvidos para superar algumas das desvantagens da coloração pela prata, tornando as amostras de proteína mais receptivas à espectrometria de massa (4) , (5) . Os dados podem ser analisados com software como o PDQuest da Bio-Rad Laboratories (Hercules, Califórnia, EUA).(6) , Melanie 3 por GeneBio (Genebra, Suíça), Imagemaster 2D Elite por Amersham Biosciences, e DeCyder Análise 2D por Amersham Biosciences (Buckinghamshire, Reino Unido) (7) . A análise da relação é usada para detectar mudanças quantitativas em proteínas entre duas amostras. 2DE está atualmente sendo adaptado para plataformas de alto rendimento (8). Periplaneta americana é a espécie predominante de barata (CR) e uma das principais fontes de alérgenos de interior na Tailândia. No entanto, dados sobre a natureza e características moleculares de seus componentes alergênicos são raros. Houve um estudo para identificar e caracterizar a proteína alergênica de P. americana. A electroforese bidimensional em gel, cromatografia líquida, espectrometria de massa, e as impressões digitais da massa dos péptidos foram utilizados para identificar a proteína americana P. contendo o epitopo específico do mAb que se mostram na (Tabela / Figura 1) , (Tabela / Fig 2) e (Tabela Fig. 3) (9) .
Proteínas:
Técnicas de ionização únicas, tais como a ionização por electrospray e laser assistida por matriz-ionização de dessorção (MALDI), facilitaram a caracterizao de proteas por espectrometria de massa (MS) (10) , (11) . Assim, um espectro é gerado com a massa molecular de peptídeos individuais, que são usados para pesquisar bancos de dados para encontrar proteínas correspondentes. Um mínimo de três pesos moleculares peptídicos é necessário para minimizar os resultados falso-positivos. O princípio por trás do mapeamento de massa de peptídeos é a combinação de peptídeos gerados experimentalmente com aqueles determinados para cada entrada em uma sequência. O processo alternativo de ionização, através da ionização por eletrospray, envolve a dispersão da amostra através de um dispositivo capilar de alta voltagem (12).. Desenvolvimentos recentes levaram ao instrumento TOF quadrupolo MALDI, que combina o mapeamento de peptídeos com a abordagem de sequenciamento de peptídeos [13, 14, 15]. Uma característica importante da análise de MS em série (MS-MS) é a capacidade de identificar com precisão modificações pós-tradução, tais como fosforilação e glicosilação, através da medição de deslocamentos de massa. Outra tecnologia de proteinChip baseada em MS
Discussão

A era pós-genômica tem uma promessa fenomenal de identificar as bases mecanicistas do desenvolvimento organismal, processos metabólicos e doenças, e podemos prever com confiança que a pesquisa em bioinformática terá um impacto dramático na melhoria da compreensão de áreas tão diversas quanto a regulação da expressão gênica. , determinação da estrutura proteica, evolução comparativa e descoberta de drogas. Pacotes de software e ferramentas bioinformáticas foram e estão sendo desenvolvidos para analisar padrões de proteína em gel 2D. Esses aplicativos de software possuem interfaces amigáveis que são incorporadas com ferramentas para linearização e mesclagem de imagens digitalizadas. As ferramentas também ajudam na segmentação e detecção de manchas de proteína nas imagens, correspondência e edição (44). Recursos adicionais incluem recursos de reconhecimento de padrões e a capacidade de executar estatísticas multivariadas. Novas técnicas e novas colaborações entre cientistas da computação, bioestatísticos e biólogos são necessárias. Há uma necessidade de desenvolver e integrar repositórios de banco de dados para as várias fontes de dados sendo coletadas, para desenvolver ferramentas para transformar dados primários brutos em formulários adequados para divulgação pública ou análise formal de dados, para obter e desenvolver interfaces de usuário para armazenar, recuperar e visualizar dados de bancos de dados e desenvolver métodos eficientes e válidos de análise de dados.Nos últimos anos, tem havido um tremendo aumento na quantidade de dados disponíveis sobre o genoma humano e, mais particularmente, sobre a base molecular das doenças genéticas. Toda semana, novas descobertas estão sendo feitas, que ligam uma ou mais doenças genéticas a defeitos em genes específicos. Para levar em conta estes desenvolvimentos, o banco de dados de seqüências de proteínas da SWISS-PROT, por exemplo, é gradualmente aumentado pela adição de um número de características que são especificamente destinadas a pesquisadores que trabalham com base em doenças genéticas humanas, bem como a extensão de polimorfismos. Estes últimos também são muito importantes, pois podem representar a base para diferenças entre os indivíduos, o que é particularmente interessante para alguns aspectos da medicina e da pesquisa de drogas. Esses bancos de dados abrangentes de sequências são obrigatórios para o uso de ferramentas de análise de proteoma, como o banco de dados de análise de proteoma que combina as diferentes seqüências de proteínas de um determinado organismo a um proteoma completo. Esse proteoma pode ser considerado como uma unidade totalmente nova, analisável de acordo com diferentes pontos de vista (como distribuição de domínios e famílias de proteínas e estruturas secundárias e terciárias de proteínas), e pode ser comparável a outros proteomas. Em geral, para usar os dados proteômicos para o desenvolvimento da saúde e das drogas, em primeiro lugar, as características dos proteomas de espécies inteiras - principalmente o humano - devem ser entendidas antes que a segunda diferenciação entre os indivíduos possa ser pesquisada. Mas, embora o número de ferramentas e bancos de dados de análise de proteoma esteja aumentando, e a maioria deles está fornecendo uma qualidade muito boa de esforços computacionais e / ou anotação de informações, o usuário não deve esquecer que a análise automatizada sempre pode conter alguns erros. O material de dados em bancos de dados é confiável, mas apenas até certo ponto. Ferramentas automáticas que usam dados derivados de bancos de dados podem, portanto, ser propensas a erros, regras baseadas em suas bases podem estar erradas, e similaridades de seqüência podem ocorrer devido ao acaso e não devido ao relacionamento. Os usuários de ferramentas de bioinformática não devem se sentir desencorajados em seu uso, desde que tenham em mente as potenciais armadilhas de sistemas automatizados e até mesmo de seres humanos, sejam encorajados a verificar todos os dados, tanto quanto possível, e não confiar cegamente neles. O material de dados em bancos de dados é confiável, mas apenas até certo ponto. Ferramentas automáticas que usam dados derivados de bancos de dados podem, portanto, ser propensas a erros, regras baseadas em suas bases podem estar erradas, e similaridades de seqüência podem ocorrer devido ao acaso e não devido ao relacionamento. Os usuários de ferramentas de bioinformática não devem se sentir desencorajados em seu uso, desde que tenham em mente as potenciais armadilhas de sistemas automatizados e até mesmo de seres humanos, sejam encorajados a verificar todos os dados, tanto quanto possível, e não confiar cegamente neles. O material de dados em bancos de dados é confiável, mas apenas até certo ponto. Ferramentas automáticas que usam dados derivados de bancos de dados podem, portanto, ser propensas a erros, regras baseadas em suas bases podem estar erradas, e similaridades de seqüência podem ocorrer devido ao acaso e não devido ao relacionamento. Os usuários de ferramentas de bioinformática não devem se sentir desencorajados em seu uso, desde que tenham em mente as potenciais armadilhas de sistemas automatizados e até mesmo de seres humanos, sejam encorajados a verificar todos os dados, tanto quanto possível, e não confiar cegamente neles.
Referências
1.O'Farrell PH. Eletroforese bidimensional de alta resolução de proteínas. J Biol Chem. 1975; 250 (10): 4007-4021.2.Merril CR, Switzer RC, Van Keuren ML. Polipéptidos vestigiais em extractos celulares e fluidos corporais humanos detectados por electroforese bidimensional e uma coloração de prata altamente sensível. Proc Natl Acad SciUSA. 1979; 76 (9): 4335-4339.3.Patton WF. Fazendo robôs cegos ver: a sinergia entre corantes fluorescentes e dispositivos de imagem em proteômica automatizada. Biotécnicas. 2000; 28 (5): 944-957.4.Steinberg TH, Jones LJ, Haugland RP, Singer VL. Manchas de gel de proteína SYPRO laranja e vermelho SYPRO: coloração fluorescente de um passo de géis desnaturantes para detecção de níveis de nanogramas de proteína. AnalBiochem. 1996; 239 (2): 223-237.5.Câmaras G, Lawrie L, Dinheiro P, Murray GI. Proteômica: uma nova abordagem para o estudo da doença. JPathol. 2000; 192 (3): 280-288.6.Bergman AC, Benjamin T. Alaiya A, et al. Identificação de proteínas marcadoras tumorais separadas por gel por espectrometria de massa. Eletroforese. 2000; 21 (3): 679-686.7.Chakravarti DN, Chakravarti B, Moutsatsos I. Ferramentas informáticas para o perfilamento do proteoma. Biotechniques.2002; 32 (Suppl): 4-15.8.Lopez MF, Kristal BS, Chernokalskaya E, et al. Perfilhamento de alto rendimento doproteoma mitocondrial usando fracionamento de afinidade e automação. Eletroforese. 2000; 21 (16): 3427-3440.9.Sookrung N, Chaicumpa W, Tungtrongchitr A, Vichyanond P, C Bunnag, Ramasoota P, Tongtawe P, Sakolvaree Y, Tapchaisri P. Periplaneta americana Arginina Quinase como um alérgeno de barata principal entre os pacientes tailandeses com alergias de barata principais. Environmental Health Perspectives.2006; 114: 875-88010.Karas M, Hillenkamp F. Ionização por dessorção a laser de proteínas com massa molecular superior a 10.000 daltons. Anal Chem. 1988; 60 (20): 2299 - 2301.11.Hillenkamp F, Karas M, Beavis RC, Chait BT. Espectrometria de massa por dessorção / ionização por laser assistida por matriz de biopolímeros. Anal Chem. 1991; 63 (24): 1193A a 1203A.12.Andersen JS, Mann M. Genômica funcional por espectrometria de massa. FEBS Lett. 2000; 480 (1): 25–31.