এআই ক্লাউড স্টার্টআপ টেনসরওয়েভ বাজি ধরেছে এএমডি এনভিডিয়াকে হারাতে পারে

এআই ক্লাউড স্টার্টআপ টেনসরওয়েভ বাজি ধরেছে এএমডি এনভিডিয়াকে হারাতে পারে

উত্স নোড: 2547347

হট এবং পাওয়ার-হাংরি জিপিইউ এবং অন্যান্য এআই পরিকাঠামো চালনায় দক্ষ বিশেষজ্ঞ ক্লাউড অপারেটররা উঠে আসছে, এবং কোরওয়েভ, ল্যাম্বদা, বা ভোল্টেজ পার্কের মতো এই খেলোয়াড়দের মধ্যে কিছু - হাজার হাজার এনভিডিয়া জিপিইউ ব্যবহার করে তাদের ক্লাস্টার তৈরি করেছে, অন্যরা এই দিকে ঝুঁকছে পরিবর্তে AMD.

পরবর্তীটির একটি উদাহরণ হল বিট বার্ন স্টার্টআপ টেনসরওয়েভ যা এই মাসের শুরুতে AMD-এর Instinct MI300X দ্বারা চালিত সিস্টেমগুলিকে র্যাক আপ করা শুরু করেছিল, যা এনভিডিয়া এক্সেলারেটরগুলি অ্যাক্সেস করার জন্য চার্জ করা খরচের একটি ভগ্নাংশে চিপগুলিকে ইজারা দেওয়ার পরিকল্পনা করেছে৷

টেনসরওয়েভের সহ-প্রতিষ্ঠাতা জেফ তাতারচুক বিশ্বাস করেন যে AMD-এর সর্বশেষ এক্সিলারেটরের অনেক সূক্ষ্ম গুণ রয়েছে। শুরুর জন্য, আপনি আসলে সেগুলি কিনতে পারেন। TensorWave অংশগুলির একটি বড় বরাদ্দ সুরক্ষিত করেছে।

2024 সালের শেষ নাগাদ, TensorWave-এর লক্ষ্য দুটি সুবিধা জুড়ে 20,000 MI300X এক্সিলারেটর স্থাপন করা এবং আগামী বছর অতিরিক্ত তরল-ঠান্ডা সিস্টেম অনলাইনে আনার পরিকল্পনা রয়েছে।

AMD এর সর্বশেষ AI সিলিকন Nvidia-এর অনেক কাঙ্ক্ষিত H100-এর থেকেও দ্রুততর। "শুধুমাত্র কাঁচা চশমায়, MI300x H100 কে প্রাধান্য দেয়," তাতারচুক বলেছেন।

ডিসেম্বরে এএমডির অ্যাডভান্সিং এআই ইভেন্টে লঞ্চ করা হয়েছে, MI300X হল আজ পর্যন্ত চিপ ডিজাইন ফার্মের সবচেয়ে উন্নত অ্যাক্সিলারেটর। দ্য 750W চিপ 12টি চিপলেট একসাথে সেলাই করার জন্য উন্নত প্যাকেজিং-এর একটি সংমিশ্রণ ব্যবহার করে — যদি আপনি HBM20 মডিউলগুলি গণনা করেন — 3টি — একটি একক GPU-তে যা Nvidia-এর H32-এর থেকে 100 শতাংশ দ্রুত বলে দাবি করা হয়৷

উচ্চতর ফ্লোটিং পয়েন্ট পারফরম্যান্সের পাশাপাশি, চিপটি H192 দ্বারা দাবি করা 3GB এবং 5.3TB/s এর বিপরীতে 80TB/s ব্যান্ডউইথ প্রদান করতে সক্ষম একটি 3.35GB HBM100 মেমরিরও গর্ব করে৷

যেমনটি আমরা এনভিডিয়ার H200 থেকে দেখেছি - H100 এর একটি সংস্করণ HBM3e এর অন্তর্ভুক্তির দ্বারা বৃদ্ধি পেয়েছে - মেমরি ব্যান্ডউইথ হল একটি প্রধান অবদানকারী AI পারফরম্যান্সের জন্য, বিশেষ করে বৃহৎ ভাষার মডেলে অনুমান করার ক্ষেত্রে।

অনেকটা এনভিডিয়ার এইচজিএক্স এবং ইন্টেলের ওএএম ডিজাইনের মতো, এএমডির সর্বশেষ জিপিইউ-এর স্ট্যান্ডার্ড কনফিগারেশনের জন্য নোড প্রতি আটটি অ্যাক্সিলারেটর প্রয়োজন।

টেনসরওয়েভের লোকেরা র‌্যাকিং এবং স্ট্যাকিংয়ে ব্যস্ত এই কনফিগারেশন।

তাতারচুক বলেন, "আমাদের এখন শত শত এবং আগামী মাসে হাজার হাজার যাচ্ছে।"

তাদের র্যাকিং আপ

একটি ফটোতে পোস্ট সোশ্যাল মিডিয়াতে, টেনসরওয়েভ ক্রু দেখিয়েছিল যে তিনটি 8U সুপারমাইক্রো AS-8125GS-TNMR2 কি ছিল সিস্টেম racked আপ এটি টেনসরওয়েভের র্যাকগুলি শক্তি বা তাপগতভাবে সীমিত কিনা তা নিয়ে আমাদের প্রশ্ন তুলেছিল, সম্পূর্ণ লোড করার সময় এই সিস্টেমগুলির জন্য 10kW এর বেশি টান হওয়া অস্বাভাবিক নয়।

দেখা যাচ্ছে যে টেনসরওয়েভের লোকেরা মেশিনগুলি ইনস্টল করা শেষ করেনি এবং ফার্মটি প্রতি র্যাকে প্রায় 40kW এর মোট ক্ষমতা সহ চারটি নোডকে লক্ষ্য করছে। এই সিস্টেমগুলি পিছনের দরজার হিট এক্সচেঞ্জার (RDHx) ব্যবহার করে ঠান্ডা করা হবে। যেমন আমরা করেছি আলোচনা অতীতে, এগুলি র্যাক-আকারের রেডিয়েটার যার মধ্য দিয়ে শীতল জল প্রবাহিত হয়। যেহেতু গরম বাতাস একটি প্রচলিত সার্ভার থেকে বেরিয়ে যায়, এটি রেডিয়েটারের মধ্য দিয়ে যায় যা এটিকে গ্রহণযোগ্য মাত্রায় ঠান্ডা করে।

এই কুলিং টেকটি ডেটাসেন্টার অপারেটরদের মধ্যে একটি হট কমোডিটি হয়ে উঠেছে যারা ঘন জিপিইউ ক্লাস্টারগুলিকে সমর্থন করতে চাইছে এবং কিছু সাপ্লাই চেইন চ্যালেঞ্জের দিকে নিয়ে গেছে, TensorWave COO Piotr Tomasik বলেছেন।

"এখনও ডেটা সেন্টারের আশেপাশের আনুষঙ্গিক সরঞ্জামগুলিতে অনেক ক্ষমতার সমস্যা রয়েছে," তিনি বিশেষভাবে RDHx কে একটি ব্যথা বিন্দু হিসাবে উল্লেখ করে বলেছিলেন। "আমরা এখন পর্যন্ত সফল হয়েছি এবং আমরা তাদের মোতায়েন করার আমাদের ক্ষমতার উপর খুব উৎসাহী ছিলাম।"

দীর্ঘমেয়াদে, তবে, টেনসরওয়েভ এর দর্শনগুলি সরাসরি-টু-চিপ কুলিং এর উপর সেট করা আছে যা ডেটাসেন্টারগুলিতে স্থাপন করা কঠিন হতে পারে যেগুলি GPU গুলি রাখার জন্য ডিজাইন করা হয়নি, টমাসিক বলেছেন। “আমরা বছরের দ্বিতীয়ার্ধে সরাসরি চিপ কুলিং স্থাপন করতে উত্তেজিত। আমরা মনে করি যে এটি ঘনত্বের সাথে অনেক ভাল এবং সহজ হতে চলেছে।"

পারফরম্যান্স উদ্বেগ

আরেকটি চ্যালেঞ্জ হল AMD এর পারফরম্যান্সে আস্থা। তাতারচুকের মতে, এএমডি এনভিডিয়ার বিকল্প অফার করার বিষয়ে প্রচুর উত্সাহ থাকলেও গ্রাহকরা নিশ্চিত নন যে তারা একই পারফরম্যান্স উপভোগ করবেন। "এছাড়াও অনেক আছে 'আমরা 100 শতাংশ নিশ্চিত নই যে এটি এনভিডিয়াতে আমরা বর্তমানে যা ব্যবহার করছি তার মতো দুর্দান্ত হতে চলেছে'," তিনি বলেছিলেন।

যত তাড়াতাড়ি সম্ভব সিস্টেমগুলি চালু এবং চালানোর স্বার্থে, TensorWave কনভার্জড ইথারনেট (RoCE) এর উপর RDMA ব্যবহার করে তার MI300X নোডগুলি চালু করবে। এই বেয়ার মেটাল সিস্টেমগুলি নির্দিষ্ট ইজারা সময়কালের জন্য উপলব্ধ হবে, দৃশ্যত $1/ঘন্টা/GPU-এর মতো কম।

স্কেলিং আপ

সময়ের সাথে সাথে, সংস্থাটির লক্ষ্য সম্পদের ব্যবস্থা করার জন্য আরও ক্লাউড-সদৃশ অর্কেস্ট্রেশন স্তর প্রবর্তন করা। উচ্চ ব্যান্ডউইথ মেমরির পেটাবাইটের বেশি সহ একটি একক ডোমেনে 5.0 জিপিইউ পর্যন্ত একসাথে সেলাই করার জন্য GigaIO-এর PCIe 5,750-ভিত্তিক FabreX প্রযুক্তি বাস্তবায়ন করাও এজেন্ডায় রয়েছে।

এই তথাকথিত TensorNODE গুলি GigaIO এর SuperNODE আর্কিটেকচারের উপর ভিত্তি করে বন্ধ দেখিয়েছেন গত বছর, যা একসাথে 32টি AMD MI210 GPU গুলি সংযোগ করতে একজোড়া PCIe সুইচ অ্যাপ্লায়েন্স ব্যবহার করেছিল৷ তাত্ত্বিকভাবে, এটি একটি সিপিইউ হেড নোডকে আজ সাধারণত GPU নোডে দেখা আটটি এক্সিলারেটরের চেয়ে অনেক বেশি সম্বোধন করতে দেয়।

এই পদ্ধতিটি এনভিডিয়ার পছন্দের ডিজাইনের থেকে আলাদা, যা একাধিক সুপারচিপকে একটি বড় জিপিইউতে একসাথে সেলাই করতে NVLink ব্যবহার করে। যদিও NVLink তার ব্যান্ডউইথের 1.8TB/s এ যথেষ্ট দ্রুত টপ আউট করছে সর্বশেষ পুনরাবৃত্তি PCIe 128 তে মাত্র 5.0GB/s এর তুলনায়, এটি শুধুমাত্র 576 GPU পর্যন্ত কনফিগারেশন সমর্থন করে।

টেনসরওয়েভ তার বিট শস্যাগার নির্মাণে অর্থায়ন করবে তার GPU গুলিকে বৃহৎ রাউন্ডের ঋণ অর্থায়নের জন্য সমান্তরাল হিসাবে ব্যবহার করে, এটি অন্যান্য ডেটাসেন্টার অপারেটরদের দ্বারা ব্যবহৃত একটি পদ্ধতি। গত সপ্তাহে, ল্যাম্বদা প্রকাশিত এটি এনভিডিয়ার দ্রুততম এক্সিলারেটরগুলির "হাজার হাজার" স্থাপনার জন্য অর্থায়নের জন্য $500 মিলিয়ন ঋণ সুরক্ষিত করেছে।

ইতিমধ্যে, কোরওয়েভ, ভাড়ার জন্য জিপিইউগুলির একটি বৃহত্তম প্রদানকারী, সক্ষম হয়েছিল নিরাপদ একটি বিশাল $2.3 বিলিয়ন ঋণ তার ডেটাসেন্টার পদচিহ্ন প্রসারিত.

টমাসিক বলেন, "আপনি আশা করবেন, এই বছরের শেষের দিকে আমাদের এখানে একই ধরনের ঘোষণা আসবে।" ®

সময় স্ট্যাম্প:

থেকে আরো নিবন্ধনকর্মী