Membuka "kotak hitam" untuk membuat model AI yang lebih baik

Membuka "kotak hitam" untuk membuat model AI yang lebih baik

Node Sumber: 1885922

Ketika model pembelajaran mendalam digunakan di dunia nyata, mungkin untuk mendeteksi penipuan keuangan dari aktivitas kartu kredit atau mengidentifikasi kanker dalam gambar medis, mereka seringkali mampu mengungguli manusia.

Tapi apa sebenarnya pembelajaran model deep learning ini? Apakah seorang model yang dilatih untuk mendeteksi kanker kulit dalam gambar klinis, misalnya, benar-benar mempelajari warna dan tekstur jaringan kanker, atau menandai beberapa fitur atau pola lain?

Model pembelajaran mesin yang kuat ini biasanya didasarkan pada jaringan saraf tiruan yang dapat memiliki jutaan node yang memproses data untuk membuat prediksi. Karena kerumitannya, para peneliti sering menyebut model ini "kotak hitam" karena bahkan para ilmuwan yang membangunnya tidak memahami semua yang terjadi di bawah tenda.

Stefanie Jegelka tidak puas dengan penjelasan “kotak hitam” itu. Seorang profesor tetap baru di Departemen Teknik Elektro dan Ilmu Komputer MIT, Jegelka menggali jauh ke dalam pembelajaran mendalam untuk memahami apa yang dapat dipelajari model ini dan bagaimana perilakunya, dan bagaimana membangun informasi tertentu sebelumnya ke dalam model ini.

“Pada akhirnya, apa yang akan dipelajari oleh model pembelajaran mendalam bergantung pada banyak faktor. Tetapi membangun pemahaman yang relevan dalam praktik akan membantu kami merancang model yang lebih baik, dan juga membantu kami memahami apa yang terjadi di dalamnya sehingga kami tahu kapan kami dapat menerapkan model dan kapan tidak. Itu sangat penting,” kata Jegelka, yang juga anggota Computer Science and Artificial Intelligence Laboratory (CSAIL) dan Institute for Data, Systems, and Society (IDSS).

Jegelka sangat tertarik untuk mengoptimalkan model pembelajaran mesin ketika input data dalam bentuk grafik. Data grafik menimbulkan tantangan khusus: Misalnya, informasi dalam data terdiri dari informasi tentang simpul dan tepi individu, serta struktur — apa yang terhubung dengan apa. Selain itu, grafik memiliki simetri matematis yang perlu diperhatikan oleh model pembelajaran mesin sehingga, misalnya, grafik yang sama selalu menghasilkan prediksi yang sama. Membangun simetri seperti itu menjadi model pembelajaran mesin biasanya tidak mudah.

Ambil molekul, misalnya. Molekul dapat direpresentasikan sebagai grafik, dengan simpul yang sesuai dengan atom dan sisi yang sesuai dengan ikatan kimia di antara keduanya. Perusahaan obat mungkin ingin menggunakan pembelajaran mendalam untuk memprediksi dengan cepat sifat banyak molekul, mempersempit jumlah yang harus mereka uji secara fisik di lab.

Jegelka mempelajari metode untuk membangun model pembelajaran mesin matematika yang dapat secara efektif mengambil data grafik sebagai masukan dan keluaran sesuatu yang lain, dalam hal ini prediksi sifat kimia molekul. Ini sangat menantang karena sifat molekul ditentukan tidak hanya oleh atom di dalamnya, tetapi juga oleh hubungan di antara mereka.  

Contoh lain pembelajaran mesin pada grafik termasuk perutean lalu lintas, desain chip, dan sistem pemberi rekomendasi.

Merancang model ini menjadi lebih sulit karena fakta bahwa data yang digunakan untuk melatihnya seringkali berbeda dari data yang dilihat model dalam praktiknya. Mungkin modelnya dilatih menggunakan grafik molekuler kecil atau jaringan lalu lintas, tetapi grafik yang dilihatnya setelah digunakan lebih besar atau lebih kompleks.

Dalam hal ini, apa yang dapat diharapkan peneliti dari model ini untuk dipelajari, dan apakah model ini akan tetap berfungsi dalam praktiknya jika data dunia nyata berbeda?

“Model Anda tidak akan dapat mempelajari semuanya karena beberapa masalah kekerasan dalam ilmu komputer, tetapi apa yang dapat Anda pelajari dan apa yang tidak dapat Anda pelajari bergantung pada cara Anda menyiapkan modelnya,” kata Jegelka.

Dia mendekati pertanyaan ini dengan menggabungkan kecintaannya pada algoritme dan matematika diskrit dengan ketertarikannya pada pembelajaran mesin.

Dari kupu-kupu hingga bioinformatika

Jegelka dibesarkan di sebuah kota kecil di Jerman dan menjadi tertarik pada sains ketika dia masih menjadi siswa sekolah menengah; seorang guru yang suportif mendorongnya untuk berpartisipasi dalam kompetisi sains internasional. Dia dan rekan satu timnya dari AS dan Singapura memenangkan penghargaan untuk situs web yang mereka buat tentang kupu-kupu, dalam tiga bahasa.

“Untuk proyek kami, kami mengambil gambar sayap dengan mikroskop elektron pemindai di universitas ilmu terapan setempat. Saya juga mendapat kesempatan untuk menggunakan kamera berkecepatan tinggi di Mercedes Benz — kamera ini biasanya memfilmkan mesin pembakaran — yang saya gunakan untuk merekam video gerak lambat dari gerakan sayap kupu-kupu. Itu adalah pertama kalinya saya benar-benar berhubungan dengan sains dan eksplorasi, ”kenangnya.

Penasaran dengan biologi dan matematika, Jegelka memutuskan untuk belajar bioinformatika di University of Tübingen dan University of Texas di Austin. Dia memiliki beberapa kesempatan untuk melakukan penelitian sebagai sarjana, termasuk magang di ilmu saraf komputasi di Universitas Georgetown, tetapi tidak yakin karir apa yang harus diikuti.

Ketika dia kembali untuk tahun terakhir kuliahnya, Jegelka pindah dengan dua teman sekamarnya yang bekerja sebagai asisten peneliti di Institut Max Planck di Tübingen.

“Mereka sedang mengerjakan pembelajaran mesin, dan itu terdengar sangat keren bagi saya. Saya harus menulis tesis sarjana saya, jadi saya bertanya di institut apakah mereka punya proyek untuk saya. Saya mulai mengerjakan pembelajaran mesin di Institut Max Planck dan saya menyukainya. Saya belajar banyak di sana, dan itu adalah tempat yang bagus untuk penelitian, ”katanya.

Dia tinggal di Institut Max Planck untuk menyelesaikan tesis master, dan kemudian memulai PhD dalam pembelajaran mesin di Institut Max Planck dan Institut Teknologi Federal Swiss..

Selama PhD-nya, dia mengeksplorasi bagaimana konsep dari matematika diskrit dapat membantu meningkatkan teknik pembelajaran mesin.

Mengajar model untuk belajar

Semakin banyak Jegelka belajar tentang pembelajaran mesin, semakin dia tertarik dengan tantangan untuk memahami bagaimana model berperilaku, dan bagaimana mengarahkan perilaku ini.

“Anda dapat melakukan banyak hal dengan pembelajaran mesin, tetapi hanya jika Anda memiliki model dan data yang tepat. Ini bukan hanya kotak hitam di mana Anda melemparkannya ke data dan berfungsi. Anda benar-benar harus memikirkannya, propertinya, dan apa yang Anda ingin model pelajari dan lakukan, ”katanya.

Setelah menyelesaikan postdoc di University of California di Berkeley, Jegelka tertarik pada penelitian dan memutuskan untuk mengejar karir di dunia akademis. Dia bergabung dengan fakultas di MIT pada tahun 2015 sebagai asisten profesor.

“Yang sangat saya sukai dari MIT, sejak awal, adalah orang-orangnya sangat peduli dengan penelitian dan kreativitas. Itulah yang paling saya hargai tentang MIT. Orang-orang di sini sangat menghargai orisinalitas dan kedalaman penelitian,” katanya.

Fokus pada kreativitas itu telah memungkinkan Jegelka menjelajahi berbagai topik.

Bekerja sama dengan fakultas lain di MIT, dia mempelajari aplikasi pembelajaran mesin dalam biologi, pencitraan, visi komputer, dan ilmu material.

Tapi yang benar-benar mendorong Jegelka adalah menyelidiki dasar-dasar pembelajaran mesin, dan yang terbaru, masalah ketahanan. Seringkali, sebuah model berperforma baik pada data pelatihan, tetapi kinerjanya memburuk saat diterapkan pada data yang sedikit berbeda. Membangun pengetahuan sebelumnya ke dalam model dapat membuatnya lebih andal, tetapi memahami informasi apa yang dibutuhkan model agar berhasil dan bagaimana membangunnya tidak sesederhana itu, katanya.

Dia juga mengeksplorasi metode untuk meningkatkan kinerja model pembelajaran mesin untuk klasifikasi citra.

Model klasifikasi gambar ada di mana-mana, mulai dari sistem pengenalan wajah di ponsel hingga alat yang mengidentifikasi akun palsu di media sosial. Model ini membutuhkan sejumlah besar data untuk pelatihan, tetapi karena mahal bagi manusia untuk memberi label tangan pada jutaan gambar, peneliti sering menggunakan kumpulan data yang tidak berlabel untuk melatih model.

Model-model ini kemudian menggunakan kembali representasi yang telah mereka pelajari ketika kemudian disesuaikan untuk tugas tertentu.

Idealnya, peneliti ingin model belajar sebanyak mungkin selama prapelatihan, sehingga dapat menerapkan pengetahuan tersebut ke tugas hilirnya. Namun dalam praktiknya, model ini sering hanya mempelajari beberapa korelasi sederhana — seperti satu gambar memiliki sinar matahari dan satu gambar memiliki bayangan — dan menggunakan "pintasan" ini untuk mengklasifikasikan gambar.

“Kami menunjukkan bahwa ini adalah masalah dalam 'pembelajaran kontrastif', yang merupakan teknik standar untuk pra-pelatihan, baik secara teoritis maupun empiris. Namun kami juga menunjukkan bahwa Anda dapat memengaruhi jenis informasi yang akan dipelajari model untuk diwakili dengan memodifikasi jenis data yang Anda tampilkan pada model. Ini adalah salah satu langkah untuk memahami model apa yang sebenarnya akan dilakukan dalam praktiknya,” katanya.

Para peneliti masih belum memahami semua yang terjadi di dalam model pembelajaran mendalam, atau detail tentang bagaimana mereka dapat memengaruhi apa yang dipelajari model dan bagaimana perilakunya, tetapi Jegelka berharap untuk terus mengeksplorasi topik ini.

“Seringkali dalam pembelajaran mesin, kami melihat sesuatu terjadi dalam praktik dan kami mencoba memahaminya secara teoritis. Ini adalah tantangan besar. Anda ingin membangun pemahaman yang sesuai dengan apa yang Anda lihat dalam praktik, sehingga Anda bisa melakukannya dengan lebih baik. Kami masih baru di awal memahami hal ini, ”katanya.

Di luar lab, Jegelka adalah penggemar musik, seni, jalan-jalan, dan bersepeda. Namun belakangan ini, dia menikmati menghabiskan sebagian besar waktu luangnya dengan putrinya yang berusia prasekolah.

<!–
->

Stempel Waktu:

Lebih dari Konsultan Blockchain