Data science adalah metode untuk mengubah data bisnis menjadi aset yang membantu organisasi meningkatkan pendapatan, mengurangi biaya, meraih peluang bisnis, meningkatkan pengalaman pelanggan, dan masih banyak lagi. Wajar jika lulusan ilmu ini akan jauh lebih dibutuhkan, karena begitu banyak bisnis digital yang berkembang dan disinilah peran data science untuk mengatur segala aktivitasnya.
Data science adalah metode untuk mengumpulkan wawasan dari data terstruktur dan tidak terstruktur menggunakan pendekatan mulai dari analisis statistik hingga pembelajaran mesin. Bagi sebagian besar organisasi, data science digunakan untuk mengubah data menjadi nilai dalam bentuk peningkatan pendapatan, pengurangan biaya, kelincahan bisnis, meningkatkan pengalaman pelanggan, pengembangan produk baru, dan sejenisnya. Data science memberikan data yang dikumpulkan oleh suatu organisasi suatu tujuan.
Meskipun saling terkait erat data analitik adalah komponen data science, yang digunakan untuk memahami seperti apa tampilan data organisasi. data science mengambil output analitik untuk memecahkan masalah. Menurut Adam Hunt, CTO di RiskIQ, Data science merupakan ilmu yang mengutamakan data untuk memecahkan masalah, bukan hanya analisis tapi menjadikannya sains atau keilmuan. Perbedaan antara data analytics dan data science juga terletak pada skala waktu. Analisis data menggambarkan keadaan realitas saat ini, sedangkan data science menggunakan data tersebut untuk memprediksi dan/atau memahami masa depan.
Data science dan big data sering dilihat secara bersamaan, tetapi data science dapat digunakan untuk mengekstrak nilai dari semua ukuran data, baik terstruktur, tidak terstruktur, atau semi terstruktur. Big data berguna bagi ilmuwan data dalam banyak kasus, karena semakin banyak data yang kita miliki, semakin banyak parameter yang dapat kita sertakan dalam model tertentu. Artinya lebih banyak tidak selalu lebih baik.
Nilai bisnis dari data science tergantung pada kebutuhan organisasi. Data science dapat membantu organisasi membangun alat untuk memprediksi kegagalan perangkat keras, memungkinkan organisasi untuk melakukan pemeliharaan dan mencegah waktu henti yang tidak direncanakan. Ini dapat membantu memprediksi apa yang akan diletakkan di rak supermarket, atau seberapa populer suatu produk berdasarkan atributnya.Ted Dunning, CTO untuk MapR di HPE, mengatakan perusahaan bisa mendapatkan nilai maksimal dari data science ketika analis data atau ilmuwan data tergabung dalam tim bisnis. “Menurut definisi hampir semua orang yang mencari kebaruan, seseorang yang benar-benar berinovasi, akan menemukan nilai atau kebocoran nilai yang tidak seperti yang diharapkan orang lain,” kata Ted Dunning. “Seringkali mereka akan mengejutkan orang-orang dalam bisnis ini. Nilainya tidak seperti yang orang pikirkan pada awalnya.”
Data science umumnya merupakan disiplin ilmu yang dilakukan oleh tim. Ilmuwan data adalah inti pandangan ke depan dari sebagian besar tim sains data, tetapi beralih dari data ke analisis, dan kemudian mengubah analisis itu menjadi nilai produksi memerlukan berbagai keterampilan dan peran. Misalnya, analis data harus siap untuk menyelidiki data sebelum menyajikannya kepada tim dan untuk memelihara model data. Insinyur data diperlukan untuk membangun saluran data untuk memperkaya kumpulan data dan membuat data tersedia untuk seluruh perusahaan.
Beberapa organisasi memilih untuk menggabungkan spesialis data dengan fungsi lain. Misalnya seperti metode DataOps dimana pendekatan yang semakin umum ketika insinyur data disematkan dalam tim DevOps dengan tanggung jawab lini bisnis. Tim DataOps ini cenderung lintas fungsi seperti operasi, rekayasa perangkat lunak, arsitektur, dan manajemen produk — dan dapat mengatur data, alat, kode, dan lingkungan dari awal hingga akhir. Tim Data Ops cenderung melihat saluran analitik sebagai analog dengan jalur manufaktur.
Menurut Michele Goetz, wakil presiden dan analis utama di Forrester, tim DataOps meliputi:
Tujuan dari data science adalah untuk membangun sarana untuk mengekstraksi wawasan yang berfokus pada bisnis dari data. Ini membutuhkan pemahaman tentang bagaimana nilai dan informasi mengalir dalam bisnis, dan kemampuan untuk menggunakan pemahaman itu untuk mengidentifikasi peluang bisnis. Sementara itu mungkin melibatkan proyek satu kali, tim data science biasanya berusaha mengidentifikasi aset data utama yang dapat diubah menjadi saluran data yang memberi makan alat dan solusi yang dapat dipelihara. Contohnya termasuk solusi pemantauan penipuan kartu kredit yang digunakan oleh bank, atau alat yang digunakan untuk mengoptimalkan penempatan turbin angin di ladang angin.
Idealnya presentasi yang mengomunikasikan tentang aktivitas yang sedang dilakukan tim juga merupakan hasil penting. “Memastikan mereka mengomunikasikan hasil ke seluruh perusahaan adalah sangat penting,” kata Hunt dari RiskIQ. “Ketika tim data science menjadi gelap terlalu lama, itu mulai mendapat sedikit masalah. Manajer produk menerima pekerjaan begitu saja kecuali kita membicarakannya sepanjang waktu, menjualnya secara internal.”
Tim teknik produksi bekerja dengan siklus sprint, yakni siklus perkembangan yang berulang hingga proyek yang dikerjakan selesai. Pola semacam ini seringkali sulit dilakukan oleh tim data science, karena banyak waktu yang dihabiskan hanya untuk menentukan kelayakan suatu proyek. Sejatinya data science harus mengikuti metode ilmiah, meskipun pada kenyataannya ada aspek-aspek yang tidak bisa dipecahkan oleh sains sehingga metode ilmiah seringkali tak sejalan. Sains sejati membutuhkan waktu, menghabiskan sedikit waktu untuk mengkonfirmasi hipotesis yang ada. Proses pengujian yang akan menjawabnya. Sekalipun data science mampu membuat pergerakan menjadi lebih cepat, prosesnya tidak bisa langsung selesai.
Tim data science menggunakan berbagai alat, termasuk SQL, Python, R, Java, dan banyak proyek sumber terbuka seperti Hive, oozie, dan TensorFlow. Alat ini digunakan untuk berbagai tugas terkait data, mulai dari mengekstrak dan membersihkan data, hingga menundukkan data ke analisis algoritmik melalui metode statistik atau pembelajaran mesin. Beberapa alat umum meliputi:
Sementara jumlah program gelar pendidikan tinggi data science kebutuhan akan lulusan sains data juga meningkat dengan cepat. Kandidat dengan latar belakang statistik biasanya sangat populer, terutama jika mereka dapat menunjukkan pengetahuan mereka dan dapat menjelaskan hasilnya dalam konteks yang dapat dipahami orang lain. Oleh karena itu keterampilan komunikasi yang memungkinkan mereka menyampaikan hasil kepada pengguna bisnis juga sangat dibutuhkan. Banyak organisasi atau perusahaan mencari kandidat lulusan sains data, akan tetapi kemampuan adalah yang hal utama yang harus diperhatikan agar seseorang diminati oleh perusahaan-perusahaan besar. Idealnya, orang yang memiliki gelar data science pada tingkat universitas mampu melakukan penelitian yang sangat mendalam tentang suatu topik, dan memiliki kapabilitas menjelaskan informasi hasil penelitiannya kepada orang lain.