Annonce Onehouse sur le panneau d'affichage de Londres

De nos jours, on peut à peine passer une heure sans lire sur l’IA générative. Alors que nous sommes encore dans la phase embryonnaire de ce que certains ont surnommé la « machine à vapeur » de la quatrième révolution industrielle, il ne fait aucun doute que « GenAI » est en passe de transformer presque tous les secteurs – de la finance et de la santé au droit et au-delà. .

Les applications intéressantes destinées aux utilisateurs pourraient attirer l'essentiel de la fanfare, mais ce sont actuellement les entreprises à l'origine de cette révolution qui en profitent le plus. Ce mois-ci seulement, le fabricant de puces Nvidia est brièvement devenu l'entreprise la plus valorisée au monde, un poids lourd de 3 300 milliards de dollars, largement motivé par la demande de puissance de calcul de l'IA.

Mais en plus des GPU (unités de traitement graphique), les entreprises ont également besoin d’une infrastructure pour gérer le flux de données – pour le stockage, le traitement, la formation, l’analyse et, à terme, pour libérer tout le potentiel de l’IA.

Une entreprise qui cherche à capitaliser sur cela est Onehouse, une startup californienne fondée il y a trois ans par Vinoth Chandar, qui a créé le projet open source Apache Hudi alors qu'il était architecte de données chez Uber. Hudi apporte les avantages des entrepôts de données aux lacs de données, créant ce qui est désormais connu sous le nom de « lac de données », permettant la prise en charge d'actions telles que l'indexation et l'exécution de requêtes en temps réel sur de grands ensembles de données, qu'il s'agisse de données structurées, non structurées ou semi-structurées. .

Par exemple, une entreprise de commerce électronique qui collecte en continu des données clients couvrant les commandes, les commentaires et les interactions numériques associées aura besoin d'un système pour ingérer toutes ces données et s'assurer qu'elles sont tenues à jour, ce qui pourrait l'aider à recommander des produits en fonction de l'activité d'un utilisateur. Hudi permet d'ingérer des données provenant de diverses sources avec une latence minimale, avec prise en charge de la suppression, de la mise à jour et de l'insertion (« upsert »), ce qui est essentiel pour de tels cas d'utilisation de données en temps réel.

Onehouse s'appuie sur cela avec un lac de données entièrement géré qui aide les entreprises à déployer Hudi. Ou, comme le dit Chandar, cela « relance l’ingestion et la standardisation des données dans des formats de données ouverts » qui peuvent être utilisés avec presque tous les principaux outils des écosystèmes de science des données, d’IA et d’apprentissage automatique.

« Onehouse élimine la construction d'une infrastructure de données de bas niveau, aidant ainsi les entreprises d'IA à se concentrer sur leurs modèles », a déclaré Chandar à TechCrunch.

Aujourd'hui, Onehouse a annoncé avoir levé 35 millions de dollars dans le cadre d'un cycle de financement de série B pour commercialiser deux nouveaux produits destinés à améliorer les performances de Hudi et à réduire les coûts de stockage et de traitement dans le cloud.

Au bord du lac (de données)

Annonce Onehouse sur le panneau d'affichage de Londres.
Crédits images : Une maison

Chandar a créé Hudi en tant que projet interne au sein d'Uber en 2016, et depuis que la société de transport en commun a fait don du projet à la Fondation Apache en 2019, Hudi a été adopté par Amazon, Disney et Walmart.

Chandar a quitté Uber en 2019 et, après un bref passage chez Confluent, a fondé Onehouse. La startup est sortie furtivement en 2022 avec un financement de démarrage de 8 millions de dollars, et a suivi peu de temps après avec un tour de table de série A de 25 millions de dollars. Les deux cycles ont été co-dirigés par Greylock Partners et Addition.

Ces sociétés de capital-risque ont de nouveau uni leurs forces pour le suivi de la série B, bien que cette fois, Craft Ventures de David Sacks mène le tour.

« Le Data Lakehouse devient rapidement l'architecture standard pour les organisations qui souhaitent centraliser leurs données pour alimenter de nouveaux services tels que l'analyse en temps réel, le ML prédictif et GenAI », a déclaré Michael Robinson, partenaire de Craft Ventures, dans un communiqué.

Pour le contexte, les entrepôts de données et les lacs de données sont similaires dans la manière dont ils servent de référentiel central pour la mise en commun des données. Mais ils le font de différentes manières : un entrepôt de données est idéal pour traiter et interroger des données historiques structurées, tandis que les lacs de données sont apparus comme une alternative plus flexible pour stocker de grandes quantités de données brutes dans leur format d'origine, avec la prise en charge de plusieurs types de données. données et requêtes hautes performances.

Cela rend les lacs de données idéaux pour les charges de travail d'IA et d'apprentissage automatique, car il est moins coûteux de stocker des données brutes pré-transformées et, en même temps, ils prennent en charge des requêtes plus complexes car les données peuvent être stockées dans leur forme d'origine.

Cependant, le compromis réside dans un tout nouvel ensemble de complexités de gestion des données, qui risquent de détériorer la qualité des données compte tenu de la vaste gamme de types et de formats de données. C'est en partie ce que Hudi entend résoudre en intégrant certaines fonctionnalités clés des entrepôts de données aux lacs de données, telles que les transactions ACID pour prendre en charge l'intégrité et la fiabilité des données, ainsi qu'en améliorant la gestion des métadonnées pour des ensembles de données plus diversifiés.

Configuration des pipelines de données dans Onehouse
Configuration des pipelines de données dans Onehouse.
Crédits images : Une maison

Puisqu'il s'agit d'un projet open source, n'importe quelle entreprise peut déployer Hudi. Un rapide coup d'œil aux logos sur le site Web de Onehouse révèle des utilisateurs impressionnants : AWS, Google, Tencent, Disney, Walmart, Bytedance, Uber et Huawei, pour n'en nommer que quelques-uns. Mais le fait que de telles entreprises de renom exploitent Hudi en interne est révélateur des efforts et des ressources nécessaires pour le construire dans le cadre d'une configuration de lac de données sur site.

« Bien que Hudi offre de riches fonctionnalités pour ingérer, gérer et transformer les données, les entreprises doivent encore intégrer environ une demi-douzaine d'outils open source pour atteindre leurs objectifs d'un lac de données de qualité production », a déclaré Chandar.

C'est pourquoi Onehouse propose une plateforme cloud native entièrement gérée qui ingère, transforme et optimise les données en une fraction du temps.

« Les utilisateurs peuvent mettre en place un lac de données ouvert en moins d'une heure, avec une large interopérabilité avec tous les principaux services cloud natifs, entrepôts et moteurs de lac de données », a déclaré Chandar.

L’entreprise a hésité à nommer ses clients commerciaux, à l’exception du couple répertorié dans les études de cas, comme la licorne indienne Apna.

« En tant que jeune entreprise, nous ne partageons pas publiquement la liste complète des clients commerciaux de Onehouse pour le moment », a déclaré Chandar.

Avec 35 millions de dollars en banque, Onehouse étend désormais sa plate-forme avec un outil gratuit appelé Onehouse LakeView, qui permet d'observer les fonctionnalités de Lakehouse pour obtenir des informations sur les statistiques des tables, les tendances, la taille des fichiers, l'historique chronologique et bien plus encore. Cela s'appuie sur les métriques d'observabilité existantes fournies par le projet principal Hudi, donnant un contexte supplémentaire sur les charges de travail.

« Sans LakeView, les utilisateurs doivent passer beaucoup de temps à interpréter les métriques et à comprendre en profondeur l'ensemble de la pile pour identifier les problèmes de performances ou les inefficacités dans la configuration du pipeline », a déclaré Chandar. « LakeView automatise cela et fournit des alertes par e-mail sur les bonnes ou mauvaises tendances, signalant les besoins en matière de gestion des données pour améliorer les performances des requêtes. »

De plus, Onehouse lance également un nouveau produit appelé Table Optimizer, un service cloud géré qui optimise les tables existantes pour accélérer l'ingestion et la transformation des données.

« Ouvert et interopérable »

Il n’est pas possible d’ignorer la myriade d’autres acteurs de renom dans le domaine. Des sociétés comme Databricks et Snowflake adoptent de plus en plus le paradigme Lakehouse : plus tôt ce mois-ci, Databricks aurait distribué 1 milliard de dollars pour acquérir une société appelée Tabular, en vue de créer une norme Lakehouse commune.

Onehouse est certainement entré dans un espace chaud, mais il espère que l'accent mis sur un système « ouvert et interopérable » qui permet d'éviter plus facilement le verrouillage du fournisseur l'aidera à résister à l'épreuve du temps. Il promet essentiellement la possibilité de rendre une copie unique des données universellement accessible depuis à peu près n'importe où, y compris les services natifs Databricks, Snowflake, Cloudera et AWS, sans avoir à créer des silos de données distincts sur chacun.

Comme avec Nvidia dans le domaine des GPU, on ne peut ignorer les opportunités qui attendent toute entreprise dans le domaine de la gestion des données. Les données sont la pierre angulaire du développement de l’IA, et le manque de données de bonne qualité est l’une des principales raisons pour lesquelles de nombreux projets d’IA échouent. Mais même lorsque les données sont présentes par lots, les entreprises ont toujours besoin de l’infrastructure nécessaire pour les ingérer, les transformer et les standardiser afin de les rendre utiles. Cela est de bon augure pour Onehouse et ses semblables.

« Du point de vue de la gestion et du traitement des données, je pense que des données de qualité fournies par une infrastructure de données solide vont jouer un rôle crucial pour faire passer ces projets d'IA dans des cas d'utilisation de production réels – pour éviter les déchets. résoudre les problèmes de données », a déclaré Chandar. « Nous commençons à voir une telle demande chez les utilisateurs de Data Lakehouse, alors qu'ils ont du mal à faire évoluer les besoins en matière de traitement des données et de requêtes pour créer ces nouvelles applications d'IA sur des données à l'échelle de l'entreprise. »

A lire également