Gretel এবং Apache Airflow ব্যবহার করে একটি সিন্থেটিক ডেটা পাইপলাইন তৈরি করুন

উত্স নোড: 1068200

Gretel এবং Apache Airflow ব্যবহার করে একটি সিন্থেটিক ডেটা পাইপলাইন তৈরি করুন

এই ব্লগ পোস্টে, আমরা একটি ETL পাইপলাইন তৈরি করি যা Gretel-এর সিন্থেটিক ডেটা API এবং Apache Airflow ব্যবহার করে PostgreSQL ডাটাবেস থেকে সিন্থেটিক ডেটা তৈরি করে।


By ড্রি নিউবেরি, Gretel.ai এ সফটওয়্যার ইঞ্জিনিয়ার

Gretel এবং Apache Airflow ব্যবহার করে একটি সিন্থেটিক ডেটা পাইপলাইন তৈরি করুন

আরে লোকেরা, আমার নাম ড্রু, এবং আমি এখানে গ্রেটেলে একজন সফ্টওয়্যার ইঞ্জিনিয়ার। আমি সম্প্রতি বিদ্যমান সরঞ্জামগুলিতে গ্রেটেল এপিআইগুলিকে একীভূত করার নিদর্শনগুলি সম্পর্কে ভাবছি যাতে ডেটা পাইপলাইনগুলি তৈরি করা সহজ হয় যেখানে নিরাপত্তা এবং গ্রাহকের গোপনীয়তা প্রথম-শ্রেণীর বৈশিষ্ট্য, শুধুমাত্র একটি চিন্তাভাবনা বা চেক করার জন্য বাক্স নয়৷

গ্রেটেল ইঞ্জিনিয়ার এবং গ্রাহকদের মধ্যে জনপ্রিয় একটি ডেটা ইঞ্জিনিয়ারিং টুল হল অ্যাপাচি এয়ারফ্লো। এটি গ্রেটেলের সাথেও দুর্দান্ত কাজ করে। এই ব্লগ পোস্টে, আমরা আপনাকে দেখাব কিভাবে Airflow, Gretel এবং PostgreSQL ব্যবহার করে একটি সিন্থেটিক ডেটা পাইপলাইন তৈরি করতে হয়। এর মধ্যে ঝাঁপ দেওয়া যাক!

বায়ুপ্রবাহ কি

 
 
বাতাসের প্রবাহ একটি ওয়ার্কফ্লো অটোমেশন টুল যা সাধারণত ডেটা পাইপলাইন তৈরি করতে ব্যবহৃত হয়। এটি পাইথন এবং অন্যান্য পরিচিত নির্মাণগুলি ব্যবহার করে এই পাইপলাইনগুলিকে প্রোগ্রাম্যাটিকভাবে সংজ্ঞায়িত করতে এবং স্থাপন করতে ডেটা ইঞ্জিনিয়ার বা ডেটা বিজ্ঞানীদের সক্ষম করে। বায়ুপ্রবাহের মূলে একটি DAG, বা নির্দেশিত অ্যাসাইক্লিক গ্রাফের ধারণা। একটি এয়ারফ্লো ডিএজি পাইপলাইনের উপাদান, তাদের নির্ভরতা এবং কার্যকর করার আদেশ নির্ধারণের জন্য একটি মডেল এবং API এর সেট সরবরাহ করে।

আপনি এয়ারফ্লো পাইপলাইনগুলি খুঁজে পেতে পারেন যা একটি পণ্য ডাটাবেস থেকে ডেটা গুদামে ডেটা প্রতিলিপি করে। অন্যান্য পাইপলাইনগুলি এমন প্রশ্নগুলি চালাতে পারে যা বিশ্লেষণ বা মডেলিংয়ের জন্য উপযুক্ত একটি একক ডেটাসেটে স্বাভাবিক ডেটা যোগ করে। তবুও অন্য একটি পাইপলাইন মূল ব্যবসায়িক মেট্রিক্স একত্রিত করে একটি দৈনিক প্রতিবেদন প্রকাশ করতে পারে। এই ব্যবহারের ক্ষেত্রে একটি সাধারণ থিম ভাগ করা হয়েছে: সিস্টেম জুড়ে ডেটা চলাচলের সমন্বয় করা। এখানেই বায়ুপ্রবাহ জ্বলজ্বল করে।

এয়ারফ্লো এবং এর সমৃদ্ধ ইকোসিস্টেমের সুবিধা ঐক্যবদ্ধতার, ডেটা ইঞ্জিনিয়ার এবং বিজ্ঞানীরা একটি একক ইউনিফাইড পাইপলাইনে যেকোন সংখ্যক বৈচিত্র্যময় সরঞ্জাম বা পরিষেবাগুলি অর্কেস্ট্রেট করতে পারেন যা বজায় রাখা এবং পরিচালনা করা সহজ। এই ইন্টিগ্রেশন ক্ষমতাগুলি বোঝার সাথে, আমরা এখন সাধারণ ডেটা অপস ওয়ার্কফ্লোগুলিকে উন্নত করতে গ্রেটেলকে কীভাবে একটি এয়ারফ্লো পাইপলাইনে একীভূত করা যেতে পারে সে সম্পর্কে কথা বলা শুরু করব।

গ্রেটেল কিভাবে ফিট করে?

 
 
গ্রেটেলে, আমাদের লক্ষ্য হল ডেটা সহজ এবং নিরাপদ করে কাজ করা। গ্রাহকদের সাথে কথা বলে, একটি ব্যথার বিষয় যা আমরা প্রায়শই শুনি তা হল সংবেদনশীল ডেটাতে ডেটা বিজ্ঞানীদের অ্যাক্সেস পেতে সময় এবং প্রচেষ্টার প্রয়োজন। ব্যবহার গ্রেটেল সিনথেটিক্স, আমরা ডেটাসেটের একটি সিন্থেটিক কপি তৈরি করে সংবেদনশীল ডেটা নিয়ে কাজ করার ঝুঁকি কমাতে পারি। গ্রেটেলকে এয়ারফ্লো-এর সাথে একীভূত করার মাধ্যমে, স্ব-পরিষেবা পাইপলাইন তৈরি করা সম্ভব যা ডেটা বিজ্ঞানীদের জন্য প্রতিটি নতুন ডেটা অনুরোধের জন্য ডেটা ইঞ্জিনিয়ারের প্রয়োজন ছাড়াই দ্রুত তাদের প্রয়োজনীয় ডেটা পেতে সহজ করে তোলে।

এই ক্ষমতাগুলি প্রদর্শন করার জন্য, আমরা একটি ETL পাইপলাইন তৈরি করব যা একটি ডাটাবেস থেকে ব্যবহারকারীর কার্যকলাপ বৈশিষ্ট্যগুলি বের করে, ডেটাসেটের একটি সিন্থেটিক সংস্করণ তৈরি করে এবং ডেটাসেটটিকে S3-এ সংরক্ষণ করে৷ S3 তে সংরক্ষিত সিন্থেটিক ডেটাসেটের সাথে, এটি গ্রাহকের গোপনীয়তার সাথে আপস না করে ডাউনস্ট্রিম মডেলিং বা বিশ্লেষণের জন্য ডেটা বিজ্ঞানীরা ব্যবহার করতে পারেন।

জিনিসগুলি শুরু করতে, প্রথমে পাইপলাইনের পাখির চোখের দৃশ্য নেওয়া যাক। এই চিত্রের প্রতিটি নোড একটি পাইপলাইন ধাপ, বা বায়ুপ্রবাহের শর্তে "টাস্ক" উপস্থাপন করে।



এয়ারফ্লোতে গ্রেটেল সিনথেটিক্স পাইপলাইনের উদাহরণ।

 

আমরা পাইপলাইনটিকে 3টি পর্যায়ে বিভক্ত করতে পারি, যা আপনি একটি ETL পাইপলাইনে খুঁজে পেতে পারেন:

  • নির্যাস – extract_features টাস্ক একটি ডাটাবেসকে জিজ্ঞাসা করবে এবং ডেটাকে বৈশিষ্ট্যের একটি সেটে রূপান্তর করবে যা মডেল তৈরির জন্য ডেটা বিজ্ঞানীদের দ্বারা ব্যবহার করা যেতে পারে।
  • সমন্বয় করা – generate_synthetic_features ইনপুট হিসাবে নিষ্কাশিত বৈশিষ্ট্যগুলি গ্রহণ করবে, একটি সিন্থেটিক মডেলকে প্রশিক্ষণ দেবে এবং তারপর Gretel API এবং ক্লাউড পরিষেবাগুলি ব্যবহার করে বৈশিষ্ট্যগুলির একটি সিন্থেটিক সেট তৈরি করবে৷
  • বোঝা – upload_synthetic_features S3-তে বৈশিষ্ট্যের সিন্থেটিক সেট সংরক্ষণ করে যেখানে এটি যেকোনো ডাউনস্ট্রিম মডেল বা বিশ্লেষণে প্রবেশ করা যেতে পারে।

পরবর্তী কয়েকটি বিভাগে আমরা এই তিনটি ধাপের প্রতিটিতে আরও বিস্তারিতভাবে ডুব দেব। আপনি যদি প্রতিটি কোড নমুনা সহ অনুসরণ করতে চান তবে আপনি যেতে পারেন gretelai/gretel-airflow-pipelines এবং এই ব্লগ পোস্টে ব্যবহৃত সমস্ত কোড ডাউনলোড করুন। রেপোতে এমন নির্দেশাবলীও রয়েছে যা আপনি একটি এয়ারফ্লো ইনস্ট্যান্স শুরু করতে এবং পাইপলাইন শেষ থেকে শেষ পর্যন্ত চালাতে অনুসরণ করতে পারেন।

উপরন্তু, আমরা প্রতিটি উপাদান ছিন্ন করার আগে, বায়ুপ্রবাহ পাইপলাইনটিকে সম্পূর্ণরূপে দেখতে সহায়ক হতে পারে, dags/airbnb_user_bookings.py. নিম্নলিখিত বিভাগগুলির কোড স্নিপেটগুলি লিঙ্কযুক্ত ব্যবহারকারী বুকিং পাইপলাইন থেকে নেওয়া হয়েছে৷

এক্সট্র্যাক্ট বৈশিষ্ট্য

 
 
প্রথম কাজ, extract_features উৎস ডাটাবেস থেকে কাঁচা ডেটা বের করে সেটিকে বৈশিষ্ট্যের একটি সেটে রূপান্তর করার জন্য দায়ী। এটি একটি সাধারণ বৈশিষ্ট্য ইঞ্জিনিয়ারিং আপনি যে কোনো মেশিন লার্নিং বা অ্যানালিটিক্স পাইপলাইনে সমস্যাটি খুঁজে পেতে পারেন।

আমাদের উদাহরণ পাইপলাইনে আমরা একটি PostgreSQL ডাটাবেস সরবরাহ করব এবং এটি থেকে বুকিং ডেটা সহ লোড করব এয়ারবিএনবি কাগল প্রতিযোগিতা.

এই ডেটাসেটে দুটি টেবিল রয়েছে, ব্যবহারকারী এবং সেশন। সেশনে একটি বিদেশী কী রেফারেন্স রয়েছে, user_id। এই সম্পর্কটি ব্যবহার করে, আমরা ব্যবহারকারীর দ্বারা একত্রিত বিভিন্ন বুকিং মেট্রিক্স ধারণকারী বৈশিষ্ট্যগুলির একটি সেট তৈরি করব। নিম্নলিখিত চিত্রটি বৈশিষ্ট্যগুলি তৈরি করতে ব্যবহৃত SQL কোয়েরি প্রতিনিধিত্ব করে।

সেশন_বিশিষ্ট_ব্যবহারকারীর সাথে AS ( SELECT user_id, count(*) AS number_of_actions_taken, count(DISTINCT action_type) AS number_of_unique_actions, round(avg(secs_elapsed)) AS avg_session_time_seconds, round(maxed_session_time_secs), round(maxed_sesion_secs) _ অতিক্রান্ত)) এএস min_session_time_seconds, ( সেশনগুলি থেকে গণনা নির্বাচন করুন
)
u.id AS user_id, u.gender, u.age, u.language, u.signup_method, u.date_account_created, s.number_of_actions_taken, s.number_of_unique_actions, s.avg_session_time_seconds, s.min_session_time_seconds, s.min_ssion_session, max_sessiontime
FROM session_features_by_user s বাম যোগদানকারী ব্যবহারকারীরা u অন u.id = s.user_id
সীমা 5000


SQL ক্যোয়ারী তারপরে আমাদের এয়ারফ্লো পাইপলাইন থেকে নির্বাহ করা হয় এবং নিম্নলিখিত টাস্ক সংজ্ঞা ব্যবহার করে একটি মধ্যবর্তী S3 অবস্থানে লেখা হয়।

@টাস্ক()
def extract_features(sql_file: str) -> str: context = get_current_context() sql_query = Path(sql_file).read_text() কী = f"{context['dag_run'].run_id}_booking_features.csv" NamedTemporaryFile="mo. r+", suffix=".csv") tmp_csv হিসাবে: postgres.copy_expert( f"copy ({sql_query}) to stdout to csv হেডার", tmp_csv.name ) s3.load_file( filename=tmp_csv.name, key=key, ) রিটার্ন কী


টাস্কে ইনপুট, sql_file, ডাটাবেসে কোন কোয়েরি চালাতে হবে তা নির্ধারণ করে। এই প্রশ্নটি টাস্কে রিড-ইন করা হবে এবং তারপর ডাটাবেসের বিরুদ্ধে কার্যকর করা হবে। কোয়েরির ফলাফলগুলি তারপর S3 এ লেখা হবে এবং রিমোট ফাইল কী টাস্কের আউটপুট হিসাবে ফেরত দেওয়া হবে।

নীচের স্ক্রিনশটটি উপরে থেকে নিষ্কাশন কোয়েরির একটি নমুনা ফলাফল সেট দেখায়। আমরা পরবর্তী বিভাগে এই ডেটাসেটের একটি সিন্থেটিক সংস্করণ কীভাবে তৈরি করব তা বর্ণনা করব।



প্রশ্নের ফলাফলের পূর্বরূপ।

Gretel API ব্যবহার করে বৈশিষ্ট্য সংশ্লেষণ করুন

 
 
প্রতিটি বৈশিষ্ট্যের একটি সিন্থেটিক সংস্করণ তৈরি করতে, আমাদের অবশ্যই প্রথমে একটি সিন্থেটিক মডেলকে প্রশিক্ষণ দিতে হবে এবং তারপরে সিন্থেটিক রেকর্ড তৈরি করতে মডেলটি চালাতে হবে। গ্রেটেলের পাইথন SDK-এর একটি সেট রয়েছে যা এয়ারফ্লো কাজগুলিতে একীভূত করা সহজ করে তোলে।

পাইথন ক্লায়েন্ট SDK ছাড়াও, আমরা একটি তৈরি করেছি গ্রেটেল এয়ারফ্লো হুক যেটি Gretel API সংযোগ এবং গোপনীয়তা পরিচালনা করে। গ্রেটেল এয়ারফ্লো কানেকশন সেট আপ করার পর, গ্রেটেল এপিআই-এর সাথে সংযোগ করা যতটা সহজ

থেকে hooks.gretel আমদানি GretelHook gretel = GretelHook()
প্রকল্প = gretel.get_project()


এয়ারফ্লো সংযোগগুলি কীভাবে কনফিগার করবেন সে সম্পর্কে আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের Github সংগ্রহস্থল দেখুন README.

উপরের উদাহরণে প্রজেক্ট ভেরিয়েবলটি গ্রেটেলের API ব্যবহার করে প্রশিক্ষণ এবং সিন্থেটিক মডেল চালানোর জন্য প্রধান এন্ট্রিপয়েন্ট হিসেবে ব্যবহার করা যেতে পারে। আরো বিস্তারিত জানার জন্য, আপনি আমাদের চেক আউট করতে পারেন পাইথন API ডক্স.

বুকিং পাইপলাইনের কথা উল্লেখ করে, আমরা এখন generate_synthetic_features টাস্ক পর্যালোচনা করব। এই ধাপটি পূর্ববর্তী টাস্কে নিষ্কাশিত বৈশিষ্ট্যগুলি ব্যবহার করে সিন্থেটিক মডেলের প্রশিক্ষণের জন্য দায়ী।

@টাস্ক()
def generate_synthetic_features(data_source: str) -> str: project = gretel.get_project() মডেল = project.create_model_obj( model_config="synthetics/default", data_source=s3.download_file(data_source) ) model.submit_cloud() return model.get_artifact_link("data_preview")


পদ্ধতি স্বাক্ষরের দিকে তাকিয়ে, আপনি দেখতে পাবেন এটি একটি পথ নেয়, data_source। এই মানটি পূর্ববর্তী ধাপে বের করা S3 বৈশিষ্ট্যের দিকে নির্দেশ করে। পরবর্তী বিভাগে আমরা এই সমস্ত ইনপুট এবং আউটপুটগুলিকে কীভাবে একত্রিত করা হয় তা নিয়ে চলব।

প্রজেক্ট.create_model_obj ব্যবহার করে মডেল তৈরি করার সময়, মডেল তৈরি করতে ব্যবহৃত সিন্থেটিক মডেল কনফিগারেশন মডেল_কনফিগারেশন উপস্থাপন করে। এই পাইপলাইনে, আমরা আমাদের ব্যবহার করছি ডিফল্ট মডেল কনফিগারেশন, কিন্তু অন্যান্য অনেক কনফিগারেশন অপশন সহজ প্রাপ্য.

মডেলটি কনফিগার করার পরে, আমরা model.submit_cloud() কল করি। এটি গ্রেটেল ক্লাউড ব্যবহার করে প্রশিক্ষণ এবং রেকর্ড তৈরির জন্য মডেল জমা দেবে। পোল (মডেল) কল করা কাজটি ব্লক করবে যতক্ষণ না মডেল প্রশিক্ষণ শেষ করে।

এখন যেহেতু মডেলটি প্রশিক্ষিত হয়েছে, আমরা জেনারেট করা সিন্থেটিক বৈশিষ্ট্যগুলি ডাউনলোড করার জন্য একটি লিঙ্ক ফেরত দিতে get_artifact_link ব্যবহার করব।



বৈশিষ্ট্যের সিন্থেটিক সেটের ডেটা প্রিভিউ।

 

এই আর্টিফ্যাক্ট লিঙ্কটি চূড়ান্ত upload_synthetic_features ধাপে একটি ইনপুট হিসেবে ব্যবহার করা হবে।

লোড সিন্থেটিক বৈশিষ্ট্য

 
 
মূল বৈশিষ্ট্যগুলি বের করা হয়েছে, এবং একটি সিন্থেটিক সংস্করণ তৈরি করা হয়েছে। এখন সিন্থেটিক বৈশিষ্ট্যগুলি আপলোড করার সময় এসেছে যাতে সেগুলি ডাউনস্ট্রিম গ্রাহকদের দ্বারা অ্যাক্সেস করা যায়। এই উদাহরণে, আমরা ডেটাসেটের চূড়ান্ত গন্তব্য হিসাবে একটি S3 বালতি ব্যবহার করতে যাচ্ছি।

@টাস্ক()
def upload_synthetic_features(data_set:str): context = get_current_context() open(data_set, "rb") সহ synth_features হিসাবে: s3.load_file_obj( file_obj=synth_features, key=f"{..._booking_features_vs_synthetic),।


এই কাজটি বেশ সোজা। Gretel এর API থেকে সিন্থেটিক ডেটাসেট ডাউনলোড করার জন্য ডেটা_সেট ইনপুট মানটিতে একটি স্বাক্ষরিত HTTP লিঙ্ক রয়েছে। টাস্কটি সেই ফাইলটিকে এয়ারফ্লো ওয়ার্কারের মধ্যে পড়বে, এবং তারপরে ইতিমধ্যেই কনফিগার করা S3 হুকটি ব্যবহার করে সিন্থেটিক ফিচার ফাইলটি একটি S3 বাকেটে আপলোড করবে যেখানে ডাউনস্ট্রিম গ্রাহক বা মডেলরা এটি অ্যাক্সেস করতে পারবেন।

পাইপলাইন অর্কেস্ট্রেটিং

 
 
শেষ তিনটি বিভাগে আমরা একটি ডেটাসেট নিষ্কাশন, সংশ্লেষণ এবং লোড করার জন্য প্রয়োজনীয় সমস্ত কোডের মধ্য দিয়ে চলেছি। শেষ ধাপ হল এই প্রতিটি কাজকে একক এয়ারফ্লো পাইপলাইনে একত্রিত করা।

আপনি যদি এই পোস্টের শুরুতে ফিরে আসেন, আমরা সংক্ষেপে একটি DAG ধারণাটি উল্লেখ করেছি। Airflow-এর TaskFlow API ব্যবহার করে আমরা এই তিনটি পাইথন পদ্ধতিকে একটি DAG-তে কম্পোজ করতে পারি যা প্রতিটি ধাপ চালানো হবে ইনপুট, আউটপুট এবং অর্ডার নির্ধারণ করে।

বৈশিষ্ট্য_পথ = নিষ্কাশন_বৈশিষ্ট্য ("/opt/airflow/dags/sql/session_rollups__by_user.sql")
সিন্থেটিক_ডেটা = জেনারেট_সিন্থেটিক_বৈশিষ্ট্য (বৈশিষ্ট্য_পথ)
আপলোড_সিন্থেটিক_ফিচার(সিন্থেটিক_ডেটা)


আপনি যদি এই পদ্ধতির কলগুলির পথ অনুসরণ করেন, তাহলে আপনি অবশেষে একটি গ্রাফ পাবেন যা আমাদের আসল বৈশিষ্ট্য পাইপলাইনের মতো দেখায়৷



এয়ারফ্লোতে গ্রেটেল সিন্থেটিক্স পাইপলাইন।

 

আপনি যদি এই পাইপলাইনটি চালাতে চান, এবং এটিকে কার্যত দেখতে চান, তাহলে এর দিকে যান Github সংগ্রহস্থল সহগামী. সেখানে আপনি কীভাবে একটি এয়ারফ্লো ইনস্ট্যান্স শুরু করবেন এবং পাইপলাইন শেষ থেকে শেষ পর্যন্ত চালাতে হবে তার নির্দেশাবলী পাবেন।

জিনিষ আপ র্যাপিং

 
 
আপনি যদি এটি এতদূর তৈরি করে থাকেন তবে আপনি দেখেছেন কিভাবে গ্রেটেলকে এয়ারফ্লোতে নির্মিত ডেটা পাইপলাইনে একত্রিত করা যায়। গ্রেটেলের বিকাশকারী বন্ধুত্বপূর্ণ API, এবং এয়ারফ্লো-এর হুক এবং অপারেটরগুলির শক্তিশালী সিস্টেমকে একত্রিত করে ETL পাইপলাইনগুলি তৈরি করা সহজ যা ডেটাকে আরও অ্যাক্সেসযোগ্য এবং ব্যবহার করা নিরাপদ করে।

আমরা একটি সাধারণ বৈশিষ্ট্য ইঞ্জিনিয়ারিং ব্যবহারের ক্ষেত্রেও কথা বলেছি যেখানে সংবেদনশীল ডেটা সহজেই অ্যাক্সেসযোগ্য নাও হতে পারে। ডেটাসেটের একটি সিন্থেটিক সংস্করণ তৈরি করার মাধ্যমে, আমরা যেকোনও সংবেদনশীল ডেটা প্রকাশের ঝুঁকি কম করি, কিন্তু যাদের এটি প্রয়োজন তাদের কাছে এটি দ্রুত উপলব্ধ করার সময় ডেটাসেটের উপযোগিতা বজায় রাখি।

আরো বিমূর্ত পদে বৈশিষ্ট্য পাইপলাইন সম্পর্কে চিন্তা করে, আমাদের এখন একটি প্যাটার্ন আছে যেটি যেকোন সংখ্যক নতুন SQL প্রশ্নের জন্য পুনরায় ব্যবহার করা যেতে পারে। পাইপলাইনের একটি নতুন সংস্করণ স্থাপন করে, এবং প্রাথমিক SQL ক্যোয়ারী অদলবদল করে, আমরা গ্রাহকের গোপনীয়তা রক্ষা করে এমন একটি সিন্থেটিক ডেটাসেটের সাহায্যে যেকোনো সম্ভাব্য সংবেদনশীল ক্যোয়ারী সামনে আনতে পারি। কোডের একমাত্র লাইন যা পরিবর্তন করতে হবে তা হল sql ফাইলের পথ। কোন জটিল তথ্য প্রকৌশল প্রয়োজন.

পড়ার জন্য ধন্যবাদ

 
 
আমাদের একটি ইমেল প্রেরণ করুন hi@gretel.ai অথবা আমাদের সাথে যোগ দিন ঢিলা যদি আপনার কোন প্রশ্ন বা মন্তব্য থাকে। আপনি কীভাবে এয়ারফ্লো ব্যবহার করছেন এবং আমরা কীভাবে আপনার বিদ্যমান ডেটা পাইপলাইনগুলির সাথে সর্বোত্তমভাবে একীভূত করতে পারি তা আমরা শুনতে চাই।

 
বায়ো: ড্রি নিউবেরি Gretel.ai-এর একজন সফটওয়্যার ইঞ্জিনিয়ার।

মূল। অনুমতি নিয়ে পোস্ট করা।

সম্পর্কিত:



শীর্ষ গল্পগুলি গত 30 দিন
সবচেয়ে জনপ্রিয়
  1. ডেটা বিজ্ঞানী এবং এমএল ইঞ্জিনিয়ারদের মধ্যে পার্থক্য
  2. নিউরাল নেটওয়ার্কের পরিবর্তে আপনার লিনিয়ার রিগ্রেশন মডেল ব্যবহার করার 3 টি কারণ
  3. সর্বাধিক প্রচলিত ডেটা সায়েন্স ইন্টারভিউ প্রশ্ন এবং উত্তর
  4. গিটহাব কপিলট ওপেন সোর্স বিকল্প
  5. গুগলের গবেষণা পরিচালক থেকে ডেটা সায়েন্স শেখার পরামর্শ
সর্বাধিক ভাগ করা
  1. ডেটা বিজ্ঞানী এবং এমএল ইঞ্জিনিয়ারদের মধ্যে পার্থক্য
  2. আপনার পান্ডা ডেটাফ্রেম কিভাবে জিজ্ঞাসা করবেন
  3. কেন এবং কীভাবে আপনার "উত্পাদনশীল ডেটা সায়েন্স" শিখতে হবে?
  4. শুধু গভীর শিক্ষার জন্য নয়: কিভাবে GPUs ডেটা সায়েন্স এবং ডেটা অ্যানালিটিক্সকে ত্বরান্বিত করে
  5. রে দিয়ে আপনার প্রথম বিতরণ করা পাইথন অ্যাপ্লিকেশন লিখছি

সূত্র: https://www.kdnuggets.com/2021/09/build-synthetic-data-pipeline-gretel-apache-airflow.html

সময় স্ট্যাম্প:

থেকে আরো কেডনুগেটস