Todos os posts

Conector do Notion: leve páginas, databases e tarefas para o warehouse sem manter pipeline

Conector gerenciado para sincronizar users, pages, blocks e comments do Notion para BigQuery, Redshift, PostgreSQL, Databricks, Supabase, Azure SQL Server e Amazon S3. Sem pipeline para manter.

12 de jun. de 2026

Conector gerenciado para sincronizar users, pages, blocks e comments do Notion para BigQuery, Redshift, PostgreSQL, Databricks, Supabase, Azure SQL Server e Amazon S3. Crie sua conta e teste agora.

Todo time de dados que trabalha numa empresa que usa o Notion como sistema operacional acaba chegando no mesmo ponto: existe conhecimento vivo naquela ferramenta, como roadmaps, OKRs, backlogs, wikis, bases de projetos, e nenhum jeito prático de cruzar esse dado com o restante do stack analítico. O que começa como uma exportação manual em CSV toda segunda-feira vira, eventualmente, um script Python mal documentado que ninguém sabe bem o que extrai, de onde e com qual periodicidade.

A Erathos lança hoje o conector gerenciado para o Notion. Quatro endpoints disponíveis, sete destinos suportados, zero código de pipeline para escrever ou manter.

O problema com pipelines de Notion feitos na mão

A API do Notion é autenticada via Internal Integration Secret e bem documentada. Qualquer engineer consegue puxar uma listagem de páginas ou registros de um database em menos de uma hora. O padrão é simples o suficiente para convencer qualquer engineer a construir uma integração própria num sprint.

O custo real aparece depois, e ele é previsível.

Paginação por cursor com comportamento não trivial. A Notion API usa paginação baseada em cursor (start_cursor / has_more). O volume de objetos por página é limitado a 100 registros. Para extrações completas de workspaces grandes com centenas de databases e milhares de páginas a lógica de paginação precisa ser implementada corretamente para cada endpoint. Uma implementação ingênua extrai só a primeira página e fecha o loop como se tivesse terminado, sem lançar erro.

Travessia recursiva de blocos. Pages no Notion são compostas por blocks. Blocks podem conter outros blocks. Uma página com conteúdo rico, como tabelas, toggles, listas aninhadas, pode exigir múltiplas chamadas recursivas à API só para materializar o conteúdo de um único registro. Essa lógica não aparece no script inicial. Ela aparece quando o dado começa a chegar incompleto no warehouse e alguém precisa debugar.

Rate limit com comportamento distinto por volume. A Notion API aplica rate limiting por token de integração. Para workspaces grandes com alto volume de páginas e databases, um backfill histórico pode acumular 429s rapidamente se o retry com backoff exponencial não estiver implementado. O pipeline que funciona no workspace de desenvolvimento quebra quando migrado para o workspace de produção da empresa.

Schema evolution implícita nas propriedades de databases. Databases no Notion têm schemas definidos pelo usuário. Alguém pode adicionar uma propriedade nova (um campo de Select, uma Relation, uma Rollup) a qualquer momento, sem aviso. O seu modelo dbt que consumia o database ontem começa a divergir hoje. O pipeline que não trata schema evolution deixa a nova coluna de fora da extração, e ela simplesmente não existe no warehouse até alguém perceber.

Observabilidade que não existe. Um 200 OK na chamada à API não significa que todos os registros foram extraídos. Sem contagem de registros por endpoint por execução, sem comparação com a janela anterior, sem alerta de queda de volume, você está voando cego. O pipeline que rodou com sucesso pode ter trazido zero páginas novas porque nenhuma integração foi conectada ao database correto no Notion.

O pior cenário não é o pipeline que quebra e manda alerta. É o pipeline que executa com sucesso e entrega dado incompleto, e o modelo de OKRs que alimenta o review da liderança já está calculado sobre uma base podre.

O que você pode fazer quando os dados do Notion chegam no warehouse

Antes de detalhar o conector, vale documentar o que se ganha de fato quando esses dados saem do SaaS e entram modelados ao lado do restante do seu stack.

Rastrear progresso de OKRs e projetos com dado bruto

Empresas que usam o Notion como sistema de OKRs têm, tipicamente, um database de objetivos e outro de key results, com propriedades de progresso, responsável e período. Com esses databases no warehouse via o endpoint pages, você consegue calcular a evolução de cada KR ao longo do tempo, algo impossível nos painéis nativos do Notion, que não oferecem histórico de alterações de propriedade com granularidade por registro.

Cruzar backlog de produto com dados de uso e receita

Com registros de tarefas e epics exportados via pages, você junta o backlog de produto com tabelas de uso (eventos de produto vindos do Mixpanel, Amplitude ou do próprio warehouse) e dados de receita do CRM. Quanto tempo a engenharia está alocando em features usadas por clientes enterprise versus starter? Qual é o lead time médio de uma tarefa marcada como "bug crítico" do momento da criação até o fechamento? Essas perguntas só têm resposta quando o dado do Notion vive ao lado dos outros modelos.

Auditar alterações em documentação interna e wikis

O endpoint blocks traz o conteúdo estruturado de cada página, como tipos de bloco, conteúdo textual e hierarquia. Combinado com o endpoint pages (que carrega os metadados de criação e última edição), você constrói um modelo de auditoria: quais páginas da wiki de compliance foram editadas nos últimos 30 dias, por quem e com qual frequência. Útil para times que precisam evidenciar controles de governança documental para auditorias SOC 2 ou ISO 27001.

Analisar colaboração e engajamento via comments e users

O endpoint comments traz as anotações deixadas em páginas e blocks, com autor, timestamp e contexto de thread. O endpoint users entrega o diretório de membros do workspace. Cruzando os dois, você identifica quais páginas concentram mais discussão, quais membros são os principais colaboradores em documentação técnica, e como o padrão de uso do Notion evoluiu após uma adoção mais ampla na empresa.

Combinar dados operacionais do Notion com o restante do stack

O ganho real aparece quando os dados do Notion estão ao lado do Linear ou Jira (para cruzar backlog com issues), do HubSpot ou Salesforce (para cruzar projetos de customer success com dados de conta) e do GitHub (para fechar o ciclo entre planejamento e entrega de código). Nenhum desses cruzamentos é possível quando o dado mora só no SaaS.

O que está disponível no conector

O conector do Notion entrega quatro endpoints prontos para serem materializados no seu warehouse de destino:

Endpoint	O que contém
`users`	Membros do workspace com ID, nome, email e tipo de conta
`pages`	Páginas e registros de databases com propriedades e metadados
`blocks`	Conteúdo estruturado por bloco (tipo, texto, hierarquia)
`comments`	Comentários com autor, timestamp e ID do objeto pai

Os destinos suportados são BigQuery, Redshift, PostgreSQL, Databricks, Supabase, Azure SQL Server e Amazon S3.

Como autenticar

A autenticação do conector requer um único campo:

Token: o Internal Integration Secret da integração Notion

Para criar o token, acesse notion.so/profile/integrations, clique em New integration, dê um nome, selecione o workspace associado e salve. O Internal Integration Secret fica visível na página de configuração da integração criada.

Um detalhe importante: para cada página ou database do Notion que você queira sincronizar, é preciso conectar a integração explicitamente. Abra a página no Notion, clique em Connect to e selecione a integração. Páginas e databases não conectados à integração não são acessíveis pela API e não aparecem na extração. Sem erro, sem aviso.

O processo completo está documentado em docs.erathos.com/connectors/apis/notion.

Por que terceirizar a ingestão para a Erathos

A premissa do conector é direta: a engenharia de manutenção da ingestão não deveria ser responsabilidade do seu time de dados. Paginação por cursor, travessia recursiva de blocos, rate limit, retry com backoff, schema evolution de databases, alerta de falha, alerta de queda de volume, backfill. Tudo isso é responsabilidade de quem opera a plataforma de ingestão.

Com o conector configurado, a plataforma entrega:

Visibilidade ponta a ponta de cada execução. Tempo de extração por endpoint, contagem de registros por janela, quais janelas foram processadas, onde houve retentativa. Quando uma métrica de progresso de OKRs muda no dashboard e a liderança pergunta o motivo, você tem a trilha completa para encontrar a causa raiz.

Alertas configurados de fábrica. Falha de execução, queda de volume por endpoint e atraso de janela são detectados e roteados pelas integrações de alerta que o time já usa email, Slack ou Discord. Você não escreve esse código.

Reprocessamento como operação suportada. Quando você precisa reprocessar uma janela, porque mudou a lógica do modelo dbt ou porque recebeu uma correção da fonte, isso é uma operação de plataforma, não uma sequência de DELETE + INSERT improvisada no warehouse.

Paginação correta, gestão de rate limit, evolução de schema e backfill são responsabilidade da plataforma. O time de dados foca no modelo, não no encanamento.

Pipelines disponíveis

O conector do Notion está disponível com os seguintes destinos:

Comece agora

Crie sua conta na Erathos e conecte o Notion ao seu warehouse em minutos. Com o Internal Integration Secret e as páginas conectadas à integração, os primeiros dados chegam ao destino sem nenhum código de pipeline para escrever, manter ou monitorar.

Dados operacionais gerados todo dia no Notion não deveriam ficar desconectados do restante do seu modelo analítico. Ou pior: em uma exportação manual ou pipeline caseiro que vai custar atenção do time todo mês para sempre.

Veja a documentação completa do conector em docs.erathos.com/connectors/apis/notion.