حلقه صفر پردازش داده در زمان واقعی: Redpanda برای رشد پلت فرم استریم خود 50 میلیون دلار بودجه سری B کسب می کند

گره منبع: 1734079

پردازش داده ها در زمان واقعی داغ است. پیشگامانی مانند نتفلیکس سال هاست که این کار را انجام می دهند و بهره بردن از مزایای آن بزرگ در داده ها سال‌ها نیز به این موضوع پرداخته است. اکنون به نظر می رسد که بقیه جهان در حال جبران هستند.

ZDNet توصیه می کند

پیش‌بینی می‌شود که بازار تحلیل جریانی (که بسته به تعاریف، فقط یک بخش از پردازش داده‌های بی‌درنگ باشد) از 15.4 میلیارد دلار در سال 2021 به 50.1 میلیارد دلار در سال 2026 با نرخ رشد سالانه مرکب (CAGR) 26.5 درصد در طی دوره پیش بینی مطابق با بازارها و بازارها.

امروز، داده ردپاندا (که قبلا Vectorized بود) اعلام کرد که 50 میلیون دلار بودجه سری B به رهبری GV با مشارکت Lightspeed Venture Partners (LSVP) و Haystack VC جمع آوری کرده است. Redpanda که در اوایل سال 2021 منتشر شد، به عنوان یک پلتفرم استریم مدرن معرفی می‌شود که به توسعه‌دهندگان سیستم ضبط ساده‌تر، سریع‌تر، مطمئن‌تر و یکپارچه‌تر برای داده‌های زمان واقعی و تاریخی سازمانی می‌دهد.

ما با بنیانگذار و مدیر عامل Redpanda، Alex Gallego صحبت کردیم تا در مورد منشاء و فرضیه اصلی این پلتفرم، و همچنین مبانی کسب و کار و نقشه راه بحث کنیم.

تکامل طبیعی

یکی از چیزهایی که باید در مورد بازار پردازش داده های بلادرنگ بدانید این است که نوعی استاندارد واقعی وجود دارد: آپاچی کافکا. ما کافکا و کنفلوئنت، شرکتی که آن را تجاری می کند، دنبال کرده ایم. از سال 2017. ZDNet تونی بائر و اندرو براست خود را ادامه داده اند، بائر تکامل کافکا و کنفلوئنت را در آوریل 2021 خلاصه کرد، زمانی که Confluent به صورت محرمانه برای IPO ثبت شد.

در سال 2019، بیش از 90 درصد از افرادی که به نظرسنجی Confluent پاسخ دادند، کافکا را برای زیرساخت داده‌های خود بسیار مهم می‌دانستند و پرس‌وجوها در Stack Overflow در طول سال بیش از 50 درصد رشد کردند. با این حال، همانطور که Confluent ممکن است موفقیت آمیز باشد و به اندازه کافکا به طور گسترده مورد پذیرش قرار گیرد، این واقعیت همچنان پابرجاست: پایه های کافکا در سال 2008 گذاشته شد.

از آنجایی که پردازش بی‌درنگ داده‌ها بیشتر مورد پذیرش قرار می‌گیرد، ریسک‌ها بیشتر می‌شوند و نیازها بیشتر می‌شوند. Gallego حدود 13 سال قبل از شروع کار بر روی موتور Redpanda در پردازش جریان کار می کرد. در سال 2016، او Concord، یک شرکت دیگر در فضای پردازش داده های بلادرنگ را به Akamai فروخت.

Redpanda به عنوان "تکامل طبیعی" آنچه Gallego فکر می‌کرد استریم باید چگونه باشد آغاز شد. انگیزه او این بود که بفهمد چه شکافی بین آنچه سخت افزار می تواند انجام دهد و آنچه نرم افزار می تواند انجام دهد وجود دارد:

من به معنای واقعی کلمه کامپیوترهای لبه را با کابل پشت به پشت وصل کردم تا مطمئن شوم چیزی بین این دو کامپیوتر وجود ندارد. و من فقط می‌خواستم اندازه‌گیری کنم و بفهمم: تکامل اساسی سخت‌افزار چیست و آیا نرم‌افزار واقعاً از سخت‌افزار مدرن بهره می‌برد؟» گالگو گفت.

یافته‌های او نشان می‌دهد که راه‌حل‌های موجود، ساخته‌شده برای سخت‌افزار ده‌ساله، در جهت رسیدگی به محدودیت‌های اساسی سخت‌افزار در آن زمان است: دیسک چرخان. او دریافت که محدودیت جدید در واقع هماهنگی CPU است.

panda-on-rocket-a9a6ce7f9a0e20065de6b81790ffcdc8.jpg

Redpanda طبق گفته موسس آن، "تکامل طبیعی" پردازش داده های بلادرنگ است. تصویر: Redpanda

گالیگو یافته‌های خود را چنین خلاصه می‌کند، گاهی اوقات وقتی جاده تغییر می‌کند، می‌توانید چرخ را دوباره اختراع کنید. در سال 2017، او یافته های خود را به صورت عمومی به اشتراک گذاشت و در سال 2019، کار بر روی Redpanda را آغاز کرد. در ابتدا Redpanda پلتفرمی برای کارشناسان توسط متخصصان بود، Gallego گفت: "این برای افرادی طراحی شده بود که شبیه من بودند: متخصصان استریم که چیز بیشتری با ذخیره سازی می خواستند".

گالگو در آن تنها نیست اشاره به کاستی ها در کافکا. گالگو گفت: حدود 40 درصد از مشتریان Redpanda متخصص موتورهای جریان هستند. بسیار مهم، انتخاب برای حفظ سازگاری با API کافکا و کل اکوسیستم کافکا در اوایل انجام شد. موتور ذخیره سازی Redpanda قبل از شروع ساخت یک شرکت نوشته شده بود.

Redpanda در ابتدا منبع بسته بود. در اواخر سال 2020، با استفاده از آن منبع در دسترس قرار گرفت مجوز BSL، با الهام از CockroachDB. گالگو گفت در سال 2021، Redpanda با صدها مشتری شروع به کار کرد. در اواسط سال، آنها به هزار نفر رسیدند و سال را در صدها هزار خوشه Redpanda به پایان رساندند.

حلقه صفر پردازش داده ها در زمان واقعی

گالگو خاطرنشان کرد، علاوه بر کارشناسان، Redpanda افرادی را نیز جذب کرده است که قبلاً هرگز در مورد استریمینگ چیزی نشنیده بودند. در عین حال، او احساس می‌کند که اعتبار به کافکا و همچنین Pulsar، RabbitMQ و کل خانواده سیستم‌های استریم که قبل از Redpanda آمده‌اند، است.

بنابراین: داده ها در زمان واقعی به ابر منتقل می شوند و ScyllaDB 5.0 نیز همینطور است

گالیگو اذعان داشت که کارگزار کافکا یک قطعه اساسی در ساخت زیرساخت جریان داده بود. قدرتمندترین کاری که کافکا انجام داد این بود که یک اکوسیستم ایجاد کرد. این واقعیت که کافکا به طور شفاف به پلتفرم‌هایی از جریان Spark، Flink و Materialize گرفته تا MongoDB و Clickhouse متصل می‌شود، به این معنی است که Redpanda نیز این کار را انجام می‌دهد.

هیچ داستان مهاجرت قهرمان، هیچ تغییری در کد، فقط مقداری تغییر پیکربندی، و همه اینها کار می‌کنند، این نوید است. این قطعا برای همه در پایگاه بزرگ نصب شده کافکا قانع کننده به نظر می رسد. Redpanda معیاری را منتشر کرده است که پلتفرم خود را با کافکا مقایسه می کند برای حمایت از ادعای عملکرد برتر.

موارد استفاده Brownfield و Greenfield Redpanda شامل فین‌تک، شرکت‌های بازی و Adtech، تولیدکنندگان خودروهای الکتریکی، بزرگترین CDN در جهان، برخی از بزرگترین بانک‌ها، و همچنین مانند Alpaca و Snapchat است.

یکی از ویژگی‌هایی که Redpanda را متمایز می‌کند و Gallego معتقد است این به کاربران جدید برای پخش جریانی کمک کرد، این واقعیت است که در یک فایل باینری واحد و بدون هیچ گونه وابستگی خارجی ارائه می‌شود. اما موارد بیشتری وجود دارد. برای شروع، این واقعیت است که Redpanda در C++ پیاده سازی شده است. این داستانی است که قبلاً دیده بودیم - ScyllaDB در مقابل کاساندرا به ذهن می آید

apple-iphone-ring.jpg

Redpanda بر تبدیل شدن به "حلقه صفر" جریان داده تمرکز دارد: داشتن یک سیستم استریم به عنوان منبع حقیقت

جورج آنادیوتیس

فرض اصلی Redpanda این است - یک موتور ساده، سریع، قابل اعتماد با سازگاری کافکا. اما گالیگو بر روی چیز دیگری تأکید کرد: یکپارچه، به معنای دسترسی یکپارچه به داده ها. Gallego گفت که این به توسعه دهندگان اجازه می دهد تا دسته جدیدی از برنامه های کاربردی را بسازند که قبلاً نمی توانستند بسازند:

برای یک توسعه دهنده، حفظ نامحدود داده ها به این معنی است که آنها نیازی به نگرانی در مورد بازیابی فاجعه ندارند و اکنون یک نسخه پشتیبان دارند. آنها نیازی به نگرانی پیشینی در مورد سایر پایگاه های داده یا سیستم های پایین دستی ندارند که نیاز به تحقق دارند. آنها به سادگی داده های خود را به Redpanda منتقل می کنند، و ما به طور شفاف در اینجا هستیم، و ذخیره حتی پتابایت داده نسبتاً مقرون به صرفه است.

چیزی که Redpanda بر آن تمرکز دارد، همانطور که Gallego می گوید، چیزی است که او آن را "Ring Zero" نامید: داشتن یک سیستم پخش به عنوان منبع حقیقت، که یک مشکل حل نشده است، اما Redpanda در حال مقابله با آن است. با این حال، ما همچنین باید توجه داشته باشیم که برخی از بخش‌های پازل استریم وجود دارد که کاربران در Redpanda پیدا نمی‌کنند، یعنی پردازش پیچیده یا رابط SQL.

Gallego پردازش پایین دست را به پردازش جریان پیچیده و تبدیل ساده تقسیم می کند. Gallego ادعا کرد که تغییرات ساده مانند پنهان کردن اطلاعات خصوصی و حساس را می توان با کارآمدتر Redpanda انجام داد. دلیل آن این است که تبدیل به جای ارسال آن به موتور خارجی مانند Flink یا Spark در Redpanda انجام می شود.

پیش رفتن

در مورد پردازش جریان پیچیده، چه SQL باشد یا چیز دیگری، Redpanda به یک اکوسیستم شریک متکی است. Gallego معتقد است که داشتن شرکت هایی که روی لایه های خاص متمرکز هستند، محصول بهتری را ارائه می دهند. این اصل همچنین به نحوه رویکرد Redpanda به یادگیری ماشینی بلادرنگ می‌پردازد.

در حالی که گالیگو معتقد است یادگیری ماشینی بلادرنگ در حال افزایش است، او Redpanda را در این خط داستانی در بخش الگوریتم‌های یادگیری ماشین قرار نمی‌دهد. او اعتراف می کند که TensorFlows و SparkML های دنیا این موارد را پوشش داده اند. چیزی که Redpanda به جدول می‌آورد، یک شیر فشار برگشتی مقیاس‌پذیر است که به الگوریتم یادگیری ماشین اجازه پخش مجدد می‌دهد.

تشخیص تقلب یک مثال معمولی برای یادگیری ماشینی بلادرنگ است. گالگو گفت: در سناریویی که سوگیری در یک برنامه امتیاز اعتباری شناسایی می‌شود، باید به گذشته برگردید و کل تاریخ را دوباره پردازش کنید، و اینجاست که Redpanda می‌درخشد.

«استفاده از Redpanda به این معنی است که شما مجبور نیستید برنامه خود را تغییر دهید تا بتوانید کل تاریخچه همه رویدادهای خود را که منجر به آن تصمیم شده است، دوباره پردازش کنید. چیزی که واقعاً ایجاد می‌کند یک موتور رکورد جدید است که به الگوریتم‌های یادگیری ماشین اجازه می‌دهد تا داده‌ها را دوباره پردازش کنند، کنترل‌های دسترسی داشته باشند، در صورتی که بار زیادی دریافت کردید، فشار برگشتی به دیسک ریخته شود.

تا آنجایی که آینده پردازش داده‌های بلادرنگ پیش می‌رود، گالگو به کافکا و API آن به عنوان یک مصنوع تاریخی فکر می‌کند - به روشی مثبت. توسعه دهندگان به اکوسیستم خریدند و میلیون ها خط کد ساختند، اما گالگو فکر می کند که آینده یک API متفاوت است:

"من فکر می کنم آینده بدون سرور است. من فکر می‌کنم آینده پروتکل سنگین‌تری نسبت به پروتکل کافکا است. من فکر می کنم که Redpanda شرکتی است که می تواند به افراد A و B بدهد. A سازگاری با این اکوسیستم بسیار غنی است که همیشه مهم خواهد بود، و B به این دلیل است که ما بیشتر به تکامل بازار از دسته ای به واقعی وابسته هستیم. زمان.

امروزه اتفاقاً Kafka API بهترین راهی است که می‌توانیم این کار را انجام دهیم. اما من فکر می کنم که در آینده یک API متفاوت خواهد بود و یک API جدید خواهد بود که واقعاً برای روشی که برنامه های کاربردی مدرن ساخته می شوند طراحی شده است. من داستان ردپاندا را اینگونه می بینم.

این به نظر رویکردی است که تلاش می‌کند عمل‌گرایی را با بینش پیوند دهد. هنوز مشخص نیست که Redpanda تا چه حد می تواند پایگاه کاربران قهوه ای و گرین فیلد خود را افزایش دهد، با این حال، نشانه های پذیرش به نظر دلگرم کننده است و اعتماد سرمایه گذاران به آن کمک می کند.

Redpanda با جدیدترین تزریق سرمایه خود تا به امروز 76 میلیون دلار جمع آوری کرده است و قصد دارد با افزایش سرعت پذیرش مشتری، تیم های مهندسی جهانی و روانه بازار خود را رشد دهد. این شرکت سال 2021 را با کمی کمتر از 20 کارمند آغاز کرد و سال را با 60 نفر به پایان رساند.

تمبر زمان: