پردازش داده ها در زمان واقعی داغ است. پیشگامانی مانند نتفلیکس سال هاست که این کار را انجام می دهند و بهره بردن از مزایای آن بزرگ در داده ها سالها نیز به این موضوع پرداخته است. اکنون به نظر می رسد که بقیه جهان در حال جبران هستند.
ZDNet توصیه می کند
پیشبینی میشود که بازار تحلیل جریانی (که بسته به تعاریف، فقط یک بخش از پردازش دادههای بیدرنگ باشد) از 15.4 میلیارد دلار در سال 2021 به 50.1 میلیارد دلار در سال 2026 با نرخ رشد سالانه مرکب (CAGR) 26.5 درصد در طی دوره پیش بینی مطابق با بازارها و بازارها.
امروز، داده ردپاندا (که قبلا Vectorized بود) اعلام کرد که 50 میلیون دلار بودجه سری B به رهبری GV با مشارکت Lightspeed Venture Partners (LSVP) و Haystack VC جمع آوری کرده است. Redpanda که در اوایل سال 2021 منتشر شد، به عنوان یک پلتفرم استریم مدرن معرفی میشود که به توسعهدهندگان سیستم ضبط سادهتر، سریعتر، مطمئنتر و یکپارچهتر برای دادههای زمان واقعی و تاریخی سازمانی میدهد.
ما با بنیانگذار و مدیر عامل Redpanda، Alex Gallego صحبت کردیم تا در مورد منشاء و فرضیه اصلی این پلتفرم، و همچنین مبانی کسب و کار و نقشه راه بحث کنیم.
تکامل طبیعی
یکی از چیزهایی که باید در مورد بازار پردازش داده های بلادرنگ بدانید این است که نوعی استاندارد واقعی وجود دارد: آپاچی کافکا. ما کافکا و کنفلوئنت، شرکتی که آن را تجاری می کند، دنبال کرده ایم. از سال 2017. ZDNet تونی بائر و اندرو براست خود را ادامه داده اند، بائر تکامل کافکا و کنفلوئنت را در آوریل 2021 خلاصه کرد، زمانی که Confluent به صورت محرمانه برای IPO ثبت شد.
در سال 2019، بیش از 90 درصد از افرادی که به نظرسنجی Confluent پاسخ دادند، کافکا را برای زیرساخت دادههای خود بسیار مهم میدانستند و پرسوجوها در Stack Overflow در طول سال بیش از 50 درصد رشد کردند. با این حال، همانطور که Confluent ممکن است موفقیت آمیز باشد و به اندازه کافکا به طور گسترده مورد پذیرش قرار گیرد، این واقعیت همچنان پابرجاست: پایه های کافکا در سال 2008 گذاشته شد.
از آنجایی که پردازش بیدرنگ دادهها بیشتر مورد پذیرش قرار میگیرد، ریسکها بیشتر میشوند و نیازها بیشتر میشوند. Gallego حدود 13 سال قبل از شروع کار بر روی موتور Redpanda در پردازش جریان کار می کرد. در سال 2016، او Concord، یک شرکت دیگر در فضای پردازش داده های بلادرنگ را به Akamai فروخت.
Redpanda به عنوان "تکامل طبیعی" آنچه Gallego فکر میکرد استریم باید چگونه باشد آغاز شد. انگیزه او این بود که بفهمد چه شکافی بین آنچه سخت افزار می تواند انجام دهد و آنچه نرم افزار می تواند انجام دهد وجود دارد:
من به معنای واقعی کلمه کامپیوترهای لبه را با کابل پشت به پشت وصل کردم تا مطمئن شوم چیزی بین این دو کامپیوتر وجود ندارد. و من فقط میخواستم اندازهگیری کنم و بفهمم: تکامل اساسی سختافزار چیست و آیا نرمافزار واقعاً از سختافزار مدرن بهره میبرد؟» گالگو گفت.
یافتههای او نشان میدهد که راهحلهای موجود، ساختهشده برای سختافزار دهساله، در جهت رسیدگی به محدودیتهای اساسی سختافزار در آن زمان است: دیسک چرخان. او دریافت که محدودیت جدید در واقع هماهنگی CPU است.
گالیگو یافتههای خود را چنین خلاصه میکند، گاهی اوقات وقتی جاده تغییر میکند، میتوانید چرخ را دوباره اختراع کنید. در سال 2017، او یافته های خود را به صورت عمومی به اشتراک گذاشت و در سال 2019، کار بر روی Redpanda را آغاز کرد. در ابتدا Redpanda پلتفرمی برای کارشناسان توسط متخصصان بود، Gallego گفت: "این برای افرادی طراحی شده بود که شبیه من بودند: متخصصان استریم که چیز بیشتری با ذخیره سازی می خواستند".
گالگو در آن تنها نیست اشاره به کاستی ها در کافکا. گالگو گفت: حدود 40 درصد از مشتریان Redpanda متخصص موتورهای جریان هستند. بسیار مهم، انتخاب برای حفظ سازگاری با API کافکا و کل اکوسیستم کافکا در اوایل انجام شد. موتور ذخیره سازی Redpanda قبل از شروع ساخت یک شرکت نوشته شده بود.
Redpanda در ابتدا منبع بسته بود. در اواخر سال 2020، با استفاده از آن منبع در دسترس قرار گرفت مجوز BSL، با الهام از CockroachDB. گالگو گفت در سال 2021، Redpanda با صدها مشتری شروع به کار کرد. در اواسط سال، آنها به هزار نفر رسیدند و سال را در صدها هزار خوشه Redpanda به پایان رساندند.
حلقه صفر پردازش داده ها در زمان واقعی
گالگو خاطرنشان کرد، علاوه بر کارشناسان، Redpanda افرادی را نیز جذب کرده است که قبلاً هرگز در مورد استریمینگ چیزی نشنیده بودند. در عین حال، او احساس میکند که اعتبار به کافکا و همچنین Pulsar، RabbitMQ و کل خانواده سیستمهای استریم که قبل از Redpanda آمدهاند، است.
بنابراین: داده ها در زمان واقعی به ابر منتقل می شوند و ScyllaDB 5.0 نیز همینطور است
گالیگو اذعان داشت که کارگزار کافکا یک قطعه اساسی در ساخت زیرساخت جریان داده بود. قدرتمندترین کاری که کافکا انجام داد این بود که یک اکوسیستم ایجاد کرد. این واقعیت که کافکا به طور شفاف به پلتفرمهایی از جریان Spark، Flink و Materialize گرفته تا MongoDB و Clickhouse متصل میشود، به این معنی است که Redpanda نیز این کار را انجام میدهد.
هیچ داستان مهاجرت قهرمان، هیچ تغییری در کد، فقط مقداری تغییر پیکربندی، و همه اینها کار میکنند، این نوید است. این قطعا برای همه در پایگاه بزرگ نصب شده کافکا قانع کننده به نظر می رسد. Redpanda معیاری را منتشر کرده است که پلتفرم خود را با کافکا مقایسه می کند برای حمایت از ادعای عملکرد برتر.
موارد استفاده Brownfield و Greenfield Redpanda شامل فینتک، شرکتهای بازی و Adtech، تولیدکنندگان خودروهای الکتریکی، بزرگترین CDN در جهان، برخی از بزرگترین بانکها، و همچنین مانند Alpaca و Snapchat است.
یکی از ویژگیهایی که Redpanda را متمایز میکند و Gallego معتقد است این به کاربران جدید برای پخش جریانی کمک کرد، این واقعیت است که در یک فایل باینری واحد و بدون هیچ گونه وابستگی خارجی ارائه میشود. اما موارد بیشتری وجود دارد. برای شروع، این واقعیت است که Redpanda در C++ پیاده سازی شده است. این داستانی است که قبلاً دیده بودیم - ScyllaDB در مقابل کاساندرا به ذهن می آید
فرض اصلی Redpanda این است - یک موتور ساده، سریع، قابل اعتماد با سازگاری کافکا. اما گالیگو بر روی چیز دیگری تأکید کرد: یکپارچه، به معنای دسترسی یکپارچه به داده ها. Gallego گفت که این به توسعه دهندگان اجازه می دهد تا دسته جدیدی از برنامه های کاربردی را بسازند که قبلاً نمی توانستند بسازند:
برای یک توسعه دهنده، حفظ نامحدود داده ها به این معنی است که آنها نیازی به نگرانی در مورد بازیابی فاجعه ندارند و اکنون یک نسخه پشتیبان دارند. آنها نیازی به نگرانی پیشینی در مورد سایر پایگاه های داده یا سیستم های پایین دستی ندارند که نیاز به تحقق دارند. آنها به سادگی داده های خود را به Redpanda منتقل می کنند، و ما به طور شفاف در اینجا هستیم، و ذخیره حتی پتابایت داده نسبتاً مقرون به صرفه است.
چیزی که Redpanda بر آن تمرکز دارد، همانطور که Gallego می گوید، چیزی است که او آن را "Ring Zero" نامید: داشتن یک سیستم پخش به عنوان منبع حقیقت، که یک مشکل حل نشده است، اما Redpanda در حال مقابله با آن است. با این حال، ما همچنین باید توجه داشته باشیم که برخی از بخشهای پازل استریم وجود دارد که کاربران در Redpanda پیدا نمیکنند، یعنی پردازش پیچیده یا رابط SQL.
Gallego پردازش پایین دست را به پردازش جریان پیچیده و تبدیل ساده تقسیم می کند. Gallego ادعا کرد که تغییرات ساده مانند پنهان کردن اطلاعات خصوصی و حساس را می توان با کارآمدتر Redpanda انجام داد. دلیل آن این است که تبدیل به جای ارسال آن به موتور خارجی مانند Flink یا Spark در Redpanda انجام می شود.
پیش رفتن
در مورد پردازش جریان پیچیده، چه SQL باشد یا چیز دیگری، Redpanda به یک اکوسیستم شریک متکی است. Gallego معتقد است که داشتن شرکت هایی که روی لایه های خاص متمرکز هستند، محصول بهتری را ارائه می دهند. این اصل همچنین به نحوه رویکرد Redpanda به یادگیری ماشینی بلادرنگ میپردازد.
در حالی که گالیگو معتقد است یادگیری ماشینی بلادرنگ در حال افزایش است، او Redpanda را در این خط داستانی در بخش الگوریتمهای یادگیری ماشین قرار نمیدهد. او اعتراف می کند که TensorFlows و SparkML های دنیا این موارد را پوشش داده اند. چیزی که Redpanda به جدول میآورد، یک شیر فشار برگشتی مقیاسپذیر است که به الگوریتم یادگیری ماشین اجازه پخش مجدد میدهد.
تشخیص تقلب یک مثال معمولی برای یادگیری ماشینی بلادرنگ است. گالگو گفت: در سناریویی که سوگیری در یک برنامه امتیاز اعتباری شناسایی میشود، باید به گذشته برگردید و کل تاریخ را دوباره پردازش کنید، و اینجاست که Redpanda میدرخشد.
«استفاده از Redpanda به این معنی است که شما مجبور نیستید برنامه خود را تغییر دهید تا بتوانید کل تاریخچه همه رویدادهای خود را که منجر به آن تصمیم شده است، دوباره پردازش کنید. چیزی که واقعاً ایجاد میکند یک موتور رکورد جدید است که به الگوریتمهای یادگیری ماشین اجازه میدهد تا دادهها را دوباره پردازش کنند، کنترلهای دسترسی داشته باشند، در صورتی که بار زیادی دریافت کردید، فشار برگشتی به دیسک ریخته شود.
تا آنجایی که آینده پردازش دادههای بلادرنگ پیش میرود، گالگو به کافکا و API آن به عنوان یک مصنوع تاریخی فکر میکند - به روشی مثبت. توسعه دهندگان به اکوسیستم خریدند و میلیون ها خط کد ساختند، اما گالگو فکر می کند که آینده یک API متفاوت است:
"من فکر می کنم آینده بدون سرور است. من فکر میکنم آینده پروتکل سنگینتری نسبت به پروتکل کافکا است. من فکر می کنم که Redpanda شرکتی است که می تواند به افراد A و B بدهد. A سازگاری با این اکوسیستم بسیار غنی است که همیشه مهم خواهد بود، و B به این دلیل است که ما بیشتر به تکامل بازار از دسته ای به واقعی وابسته هستیم. زمان.
امروزه اتفاقاً Kafka API بهترین راهی است که میتوانیم این کار را انجام دهیم. اما من فکر می کنم که در آینده یک API متفاوت خواهد بود و یک API جدید خواهد بود که واقعاً برای روشی که برنامه های کاربردی مدرن ساخته می شوند طراحی شده است. من داستان ردپاندا را اینگونه می بینم.
این به نظر رویکردی است که تلاش میکند عملگرایی را با بینش پیوند دهد. هنوز مشخص نیست که Redpanda تا چه حد می تواند پایگاه کاربران قهوه ای و گرین فیلد خود را افزایش دهد، با این حال، نشانه های پذیرش به نظر دلگرم کننده است و اعتماد سرمایه گذاران به آن کمک می کند.
Redpanda با جدیدترین تزریق سرمایه خود تا به امروز 76 میلیون دلار جمع آوری کرده است و قصد دارد با افزایش سرعت پذیرش مشتری، تیم های مهندسی جهانی و روانه بازار خود را رشد دهد. این شرکت سال 2021 را با کمی کمتر از 20 کارمند آغاز کرد و سال را با 60 نفر به پایان رساند.
- بزرگ داده
- شرکت های تجزیه و تحلیل داده های بزرگ
- mba تجزیه و تحلیل داده های بزرگ
- فرآیند تجزیه و تحلیل داده های بزرگ
- ابزارهای تجزیه و تحلیل داده های بزرگ
- معماری کلان داده
- تجزیه و تحلیل کسب و کار داده های بزرگ
- داده های بزرگ برای مراقبت های بهداشتی
- چرخه عمر کلان داده
- موتور جستجوی کلان داده
- نرم افزار داده های بزرگ
- ذخیره سازی داده های بزرگ
- داده های بزرگ کنفرانس بلاک چین
- کلان داده های ابری
- فضای ذخیره ابری
- coingenius
- داده های بزرگ کنفرانس کریپتو
- تجزیه و تحلیل داده ها
- آجرهای داده
- مرکز داده
- مهندس داده
- علم اطلاعات
- تجزیه و تحلیل بزرگ علم داده
- پردازش داده های توزیع شده
- github bigdata
- هادوپ
- هادوپ کلان داده
- جرقه هادوپ
- کندو
- کافکا
- MongoDB
- وحی
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی پلاتو
- PlatoData
- بازی پلاتو
- rmdbs
- پایگاه داده دانه های برف
- پایگاه داده جرقه
- ذخیره سازی داده vr
- ZD Net
- زفیرنت