Quais os custos de ter soluções ETL in-house?
Durante nosso processo de validação de reuniões comerciais, muitas vezes pessoas comparam o custo de cloud com o valor da nossa assinatura. Por isso decidi falar sobre os custos escondidos na construção e manutenção de data pipelines in-house.
Primeiro alguns avisos importantes, antes que me matem nos comentários:
Não estou falando mal das libs internas q eu sei que vocês DEs são viciados em usar ou desenvolver
Também não estou falando mal de airflow ou usar dags
Estou falando especificamente que o processo de ingerir dados pode ser otimizado.
Então vamos lá, começando pelo básico.
⏰ Horas do time:
É fácil esquecer de considerar o custo hora desse time na construção e manutenção de data pipelines. Quanto tempo uma pessoa do seu time de dados vai gastar construindo ou mantendo data pipelines?
🔍 Contratação e retenção:
Engenheiros de dados são muito difíceis de encontrar (e caros), bons engenheiros são raros, e vamos encarar a verdade, você está competindo com empresas gringas para contratar e manter esse pessoal. Para construir esse time, além do salário dos próprios engenheiros, você terá custos de recrutamento e seleção, que raramente são levados em consideração.
🔁 Rotatividade:
Times de dados acabam tendo uma grande rotatividade. Quem nunca teve que arrumar um pipeline da idade das pedras, feito por alguém que não está mais na empresa, sem nenhuma documentação do que tinha sido feito? Muitos times de dados literalmente perdem tudo quando uma pessoa sai, porque não tinha mais ninguém que sabia como aquele processo era feito. Lógico que uma boa doc resolveria o problema, mas a realidade é que são tantas demandas, que times optam por deixar isso pra depois 😩 Outro ponto é que engenheiros gostam de ser desafiados, ninguém suporta ficar fazendo ETLzinho por muito tempo.
⚙️ Manutenção dos pipelines:
Seu time precisa manter os pipelines rodando, a manutenção é eterna, e para isso, eles vão precisar fazer gestão da mudança das APIs dos sistemas que sua empresa utiliza. Está pronto para refazer a integração do Google Ads a cada 3 meses? Me parece uma alternativa muito melhor terceirizar esse problema.
🔥 Apagando incendios:
Sem falar nas manutenções que pegam todos de surpresa, CxO vindo com os dois pés no peito porque o dash não atualizou. E lá se foi mais um dia debugando o pipeline para entender o que aconteceu, atrapalhando todo o planejamento de desenvolvimento.
👎 Downtime:
Falando em apagar incêndios, quanto tempo demora para descobrir os erros que estão acontecendo e concertar? É óbvio que não existe um mundo sem downtime, mas idealmente ele vai passar despercebido pelo time que consome os dados, porque a resolução é rápida e seu time descobre o problema antes deles reclamarem. Observabilidade de dados faz TODA a diferença.
💰 Custo de oportunidade:
Você realmente prefere ter um engenheiro lendo documentação de API do que resolvendo algum problema core para o seu negócio? Quem sabe ingerindo alguma fonte de dados específica do seu negócio, como arquivos brutos de open data, construindo e otimizando transformações dentro do seu ambiente analítico, ou ainda otimizando o processo de geração de embbedings se você usa LLMs.
Claro que em alguns contextos fazer isso internamente faz sentido, ao menos para algumas fontes de dados. Mas na maioria dos casos, os custos escondidos acabam não compensando a escolha. Avalie com seu time de dados, financeiro etc antes de tomar uma decisão e não se apresse. Mas para o melhor da sua empresa, não deixe de considerar os custos indiretos.
Se você tiver na dúvida entre construir ou comprar data pipelines, entre em contato com o nosso time!
Gelson Bagetti
Quais os custos de ter soluções ETL in-house?
Durante nosso processo de validação de reuniões comerciais, muitas vezes pessoas comparam o custo de cloud com o valor da nossa assinatura. Por isso decidi falar sobre os custos escondidos na construção e manutenção de data pipelines in-house.
Primeiro alguns avisos importantes, antes que me matem nos comentários:
Não estou falando mal das libs internas q eu sei que vocês DEs são viciados em usar ou desenvolver
Também não estou falando mal de airflow ou usar dags
Estou falando especificamente que o processo de ingerir dados pode ser otimizado.
Então vamos lá, começando pelo básico.
⏰ Horas do time:
É fácil esquecer de considerar o custo hora desse time na construção e manutenção de data pipelines. Quanto tempo uma pessoa do seu time de dados vai gastar construindo ou mantendo data pipelines?
🔍 Contratação e retenção:
Engenheiros de dados são muito difíceis de encontrar (e caros), bons engenheiros são raros, e vamos encarar a verdade, você está competindo com empresas gringas para contratar e manter esse pessoal. Para construir esse time, além do salário dos próprios engenheiros, você terá custos de recrutamento e seleção, que raramente são levados em consideração.
🔁 Rotatividade:
Times de dados acabam tendo uma grande rotatividade. Quem nunca teve que arrumar um pipeline da idade das pedras, feito por alguém que não está mais na empresa, sem nenhuma documentação do que tinha sido feito? Muitos times de dados literalmente perdem tudo quando uma pessoa sai, porque não tinha mais ninguém que sabia como aquele processo era feito. Lógico que uma boa doc resolveria o problema, mas a realidade é que são tantas demandas, que times optam por deixar isso pra depois 😩 Outro ponto é que engenheiros gostam de ser desafiados, ninguém suporta ficar fazendo ETLzinho por muito tempo.
⚙️ Manutenção dos pipelines:
Seu time precisa manter os pipelines rodando, a manutenção é eterna, e para isso, eles vão precisar fazer gestão da mudança das APIs dos sistemas que sua empresa utiliza. Está pronto para refazer a integração do Google Ads a cada 3 meses? Me parece uma alternativa muito melhor terceirizar esse problema.
🔥 Apagando incendios:
Sem falar nas manutenções que pegam todos de surpresa, CxO vindo com os dois pés no peito porque o dash não atualizou. E lá se foi mais um dia debugando o pipeline para entender o que aconteceu, atrapalhando todo o planejamento de desenvolvimento.
👎 Downtime:
Falando em apagar incêndios, quanto tempo demora para descobrir os erros que estão acontecendo e concertar? É óbvio que não existe um mundo sem downtime, mas idealmente ele vai passar despercebido pelo time que consome os dados, porque a resolução é rápida e seu time descobre o problema antes deles reclamarem. Observabilidade de dados faz TODA a diferença.
💰 Custo de oportunidade:
Você realmente prefere ter um engenheiro lendo documentação de API do que resolvendo algum problema core para o seu negócio? Quem sabe ingerindo alguma fonte de dados específica do seu negócio, como arquivos brutos de open data, construindo e otimizando transformações dentro do seu ambiente analítico, ou ainda otimizando o processo de geração de embbedings se você usa LLMs.
Claro que em alguns contextos fazer isso internamente faz sentido, ao menos para algumas fontes de dados. Mas na maioria dos casos, os custos escondidos acabam não compensando a escolha. Avalie com seu time de dados, financeiro etc antes de tomar uma decisão e não se apresse. Mas para o melhor da sua empresa, não deixe de considerar os custos indiretos.
Se você tiver na dúvida entre construir ou comprar data pipelines, entre em contato com o nosso time!
Gelson Bagetti
Quais os custos de ter soluções ETL in-house?
Durante nosso processo de validação de reuniões comerciais, muitas vezes pessoas comparam o custo de cloud com o valor da nossa assinatura. Por isso decidi falar sobre os custos escondidos na construção e manutenção de data pipelines in-house.
Primeiro alguns avisos importantes, antes que me matem nos comentários:
Não estou falando mal das libs internas q eu sei que vocês DEs são viciados em usar ou desenvolver
Também não estou falando mal de airflow ou usar dags
Estou falando especificamente que o processo de ingerir dados pode ser otimizado.
Então vamos lá, começando pelo básico.
⏰ Horas do time:
É fácil esquecer de considerar o custo hora desse time na construção e manutenção de data pipelines. Quanto tempo uma pessoa do seu time de dados vai gastar construindo ou mantendo data pipelines?
🔍 Contratação e retenção:
Engenheiros de dados são muito difíceis de encontrar (e caros), bons engenheiros são raros, e vamos encarar a verdade, você está competindo com empresas gringas para contratar e manter esse pessoal. Para construir esse time, além do salário dos próprios engenheiros, você terá custos de recrutamento e seleção, que raramente são levados em consideração.
🔁 Rotatividade:
Times de dados acabam tendo uma grande rotatividade. Quem nunca teve que arrumar um pipeline da idade das pedras, feito por alguém que não está mais na empresa, sem nenhuma documentação do que tinha sido feito? Muitos times de dados literalmente perdem tudo quando uma pessoa sai, porque não tinha mais ninguém que sabia como aquele processo era feito. Lógico que uma boa doc resolveria o problema, mas a realidade é que são tantas demandas, que times optam por deixar isso pra depois 😩 Outro ponto é que engenheiros gostam de ser desafiados, ninguém suporta ficar fazendo ETLzinho por muito tempo.
⚙️ Manutenção dos pipelines:
Seu time precisa manter os pipelines rodando, a manutenção é eterna, e para isso, eles vão precisar fazer gestão da mudança das APIs dos sistemas que sua empresa utiliza. Está pronto para refazer a integração do Google Ads a cada 3 meses? Me parece uma alternativa muito melhor terceirizar esse problema.
🔥 Apagando incendios:
Sem falar nas manutenções que pegam todos de surpresa, CxO vindo com os dois pés no peito porque o dash não atualizou. E lá se foi mais um dia debugando o pipeline para entender o que aconteceu, atrapalhando todo o planejamento de desenvolvimento.
👎 Downtime:
Falando em apagar incêndios, quanto tempo demora para descobrir os erros que estão acontecendo e concertar? É óbvio que não existe um mundo sem downtime, mas idealmente ele vai passar despercebido pelo time que consome os dados, porque a resolução é rápida e seu time descobre o problema antes deles reclamarem. Observabilidade de dados faz TODA a diferença.
💰 Custo de oportunidade:
Você realmente prefere ter um engenheiro lendo documentação de API do que resolvendo algum problema core para o seu negócio? Quem sabe ingerindo alguma fonte de dados específica do seu negócio, como arquivos brutos de open data, construindo e otimizando transformações dentro do seu ambiente analítico, ou ainda otimizando o processo de geração de embbedings se você usa LLMs.
Claro que em alguns contextos fazer isso internamente faz sentido, ao menos para algumas fontes de dados. Mas na maioria dos casos, os custos escondidos acabam não compensando a escolha. Avalie com seu time de dados, financeiro etc antes de tomar uma decisão e não se apresse. Mas para o melhor da sua empresa, não deixe de considerar os custos indiretos.
Se você tiver na dúvida entre construir ou comprar data pipelines, entre em contato com o nosso time!
Gelson Bagetti
Quais os custos de ter soluções ETL in-house?
Durante nosso processo de validação de reuniões comerciais, muitas vezes pessoas comparam o custo de cloud com o valor da nossa assinatura. Por isso decidi falar sobre os custos escondidos na construção e manutenção de data pipelines in-house.
Primeiro alguns avisos importantes, antes que me matem nos comentários:
Não estou falando mal das libs internas q eu sei que vocês DEs são viciados em usar ou desenvolver
Também não estou falando mal de airflow ou usar dags
Estou falando especificamente que o processo de ingerir dados pode ser otimizado.
Então vamos lá, começando pelo básico.
⏰ Horas do time:
É fácil esquecer de considerar o custo hora desse time na construção e manutenção de data pipelines. Quanto tempo uma pessoa do seu time de dados vai gastar construindo ou mantendo data pipelines?
🔍 Contratação e retenção:
Engenheiros de dados são muito difíceis de encontrar (e caros), bons engenheiros são raros, e vamos encarar a verdade, você está competindo com empresas gringas para contratar e manter esse pessoal. Para construir esse time, além do salário dos próprios engenheiros, você terá custos de recrutamento e seleção, que raramente são levados em consideração.
🔁 Rotatividade:
Times de dados acabam tendo uma grande rotatividade. Quem nunca teve que arrumar um pipeline da idade das pedras, feito por alguém que não está mais na empresa, sem nenhuma documentação do que tinha sido feito? Muitos times de dados literalmente perdem tudo quando uma pessoa sai, porque não tinha mais ninguém que sabia como aquele processo era feito. Lógico que uma boa doc resolveria o problema, mas a realidade é que são tantas demandas, que times optam por deixar isso pra depois 😩 Outro ponto é que engenheiros gostam de ser desafiados, ninguém suporta ficar fazendo ETLzinho por muito tempo.
⚙️ Manutenção dos pipelines:
Seu time precisa manter os pipelines rodando, a manutenção é eterna, e para isso, eles vão precisar fazer gestão da mudança das APIs dos sistemas que sua empresa utiliza. Está pronto para refazer a integração do Google Ads a cada 3 meses? Me parece uma alternativa muito melhor terceirizar esse problema.
🔥 Apagando incendios:
Sem falar nas manutenções que pegam todos de surpresa, CxO vindo com os dois pés no peito porque o dash não atualizou. E lá se foi mais um dia debugando o pipeline para entender o que aconteceu, atrapalhando todo o planejamento de desenvolvimento.
👎 Downtime:
Falando em apagar incêndios, quanto tempo demora para descobrir os erros que estão acontecendo e concertar? É óbvio que não existe um mundo sem downtime, mas idealmente ele vai passar despercebido pelo time que consome os dados, porque a resolução é rápida e seu time descobre o problema antes deles reclamarem. Observabilidade de dados faz TODA a diferença.
💰 Custo de oportunidade:
Você realmente prefere ter um engenheiro lendo documentação de API do que resolvendo algum problema core para o seu negócio? Quem sabe ingerindo alguma fonte de dados específica do seu negócio, como arquivos brutos de open data, construindo e otimizando transformações dentro do seu ambiente analítico, ou ainda otimizando o processo de geração de embbedings se você usa LLMs.
Claro que em alguns contextos fazer isso internamente faz sentido, ao menos para algumas fontes de dados. Mas na maioria dos casos, os custos escondidos acabam não compensando a escolha. Avalie com seu time de dados, financeiro etc antes de tomar uma decisão e não se apresse. Mas para o melhor da sua empresa, não deixe de considerar os custos indiretos.
Se você tiver na dúvida entre construir ou comprar data pipelines, entre em contato com o nosso time!
Gelson Bagetti