Rabu, 11 Oktober 2017

Tugas 3

Sistem keputusan Bermain tenis

Berbasis web php

sourcode di inputData.php

----------------------------------------------------------------------------------------------------------------

<html>
<head>
<title>Data Mining</title>
</head>
<body>
<form action="hasil.php" method="post">
<strong>KEPUTUSAM BERMAIN TENIS</strong><br>
<pre>
Masukan NIM : <input type="text" name="txtnim"><br>
Masukan Nama : <input type="text" name="txtnama"><br>
Pilih Outlook : <select name="coutlook">
<option>Cloudy</option>
<option>Rainy</option>
<option>Sunny</option></select><br>
Pilih Temperature : <select name="ctemperature">
<option>Cool</option>
<option>Hot</option>
<option>Mild</option></select><br>
Pilih Humadity : <select name="chumadity">
<option>High</option>
<option>Normal</option>></select><br>
Pilih Windy : <select name="cwindy">
<option>False</option>
<option>True</option>></select><br>
Suhu Derajat : <input type="text" name="txtnilai"><br>
<input type="submit" name="bhasil" value="Hasil"><input type="reset" name="bbatal" value="batal"><br>
</pre>

</body>
</html>
--------------------------------------------------------------------------------------------------------------------------

sourcecode hasil.php
--------------------------------------------------------------------------------------------------------------------------
<html>
<head>
<title>Data Mining</title>
</head>
<body>
<strong>Data Hasil Keputusan</strong><br>
------------------------------------------<br>
<?php
$nim=$_POST['txtnim'];
$nama=$_POST['txtnama'];
$outlook=$_POST['coutlook'];
$temperature=$_POST['ctemperature'];
$humadity=$_POST['chumadity'];
$windy=$_POST['cwindy'];
$nilai=$_POST['txtnilai'];

//outlook
if($outlook=="Cloudy") { $jrs="Cloudy"; }
elseif($outlook=="Rainy") { $jrs="Rainy"; }
else { $jrs="Sunny"; }

//temperature
if($temperature=="Cool") { $jrs="Cool"; }
elseif($temperature=="Hot") { $jrs="Hot"; }
else { $jrs="Mild"; }

//Humadity
if($humadity=="High") { $jrs="High"; }
else { $jrs="Normal"; }

//Windy
if($windy=="False") { $jrs="False"; }
else { $jrs="True"; }

if($nilai>=30) { $ket="Tidak Bisa Bermain";}
else { $ket="Bisa Bermain"; }
echo"<pre>";
echo"NIM : $nim <br>";
echo"Nama : $nama <br>";
echo"Outlook : $outlook <br>";
echo"Temperature : $temperature <br>";
echo"Humadity : $humadity <br>";
echo"windy : $windy <br>";
echo"Suhu Derajat : $nilai <br>";
echo"Keterangan : $ket <br>";
echo"---------------------------------<br>";
echo"<td align='center'><a href='inputData.php'>Kembali ke awal</td>";
echo"</pre>";
?>
</body>
</html>
----------------------------------------------------------------------------------------------------------------------
view dari inputData.php

view dari hasil.php

Rabu, 27 September 2017

Tugas 2

Text Preprocessing

sistem temu kembali informasi -> menjadi kata yang benar

Berdasarkan ketidak teraturan struktur data teks, maka proses sistem temu kembali informasi ataupun text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur. Salah satu implementasi dari text mining adalah tahap Text Preprocessing.

Tahap Text Preprocessing adalah tahapan dimana aplikasi melakukan seleksi data yang akan diproses pada setiap dokumen. Proses preprocessing ini meliputi (1) case folding, (2) tokenizing, (3) filtering, dan (4) stemming.

1. Case Folding

Tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Oleh karena itu, peran Case Foldingdibutuhkan dalam mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar (biasanya huruf kecil atau lowercase). Sebagai contoh, user yang ingin mendapatkan informasi “KOMPUTER” dan mengetik “KOMPOTER”, “KomPUter”, atau “komputer”, tetap diberikan hasil retrieval yang sama yakni “komputer”. Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter.

2. Tokenizing

Tahap Tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini dapat dilihat pada gambar dibawah ini.

Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam satuan kata, bagaimana membedakan karakter-karakter tertentu yang dapat diperlakukan sebagai pemisah kata atau bukan.

Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai pemisah kata. Namun untuk karakter petik tunggal (‘), titik (.), semikolon (;), titk dua (:) atau lainnya, dapat memiliki peran yang cukup banyak sebagai pemisah kata.

Dalam memperlakukan karakter-karakter dalam teks sangat tergantung pada kontek aplikasi yang dikembangkan. Pekerjaan tokenisasi ini akan semakin sulit jika juga harus memperhatikan struktur bahasa (grammatikal).

3. Filtering

Tahap Filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata kurang penting) atau wordlist (menyimpan kata penting). Stoplist/stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya. Data stopword dapat diambil dari jurnal Fadillah Z Tala berjudul ”A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia”.

Kata-kata seperti “dari”, “yang”, “di”, dan “ke” adalah beberapa contoh kata-kata yang berfrekuensi tinggi dan dapat ditemukan hampir dalam setiap dokumen (disebut sebagai stopword). Penghilangan stopword ini dapat mengurangi ukuran index dan waktu pemrosesan. Selain itu, juga dapat mengurangi level noise.

Namun terkadang stopping tidak selalu meningkatkan nilai retrieval. Pembangunan daftar stopword (disebut stoplist) yang kurang hati-hati dapat memperburuk kinerja sistem Information Retrieval (IR). Belum ada suatu kesimpulan pasti bahwa penggunaan stopping akan selalu meningkatkan nilai retrieval, karena pada beberapa penelitian, hasil yang didapatkan cenderung bervariasi.

4. Stemming

Pembuatan indeks dilakukan karena suatu dokumen tidak dapat dikenali langsung oleh suatu Sistem Temu Kembali Informasi atau Information Retrieval System (IRS). Oleh karena itu, dokumen tersebut terlebih dahulu perlu dipetakan ke dalam suatu representasi dengan menggunakan teks yang berada di dalamnya.

Teknik Stemming diperlukan selain untuk memperkecil jumlah indeks yang berbeda dari suatu dokumen, juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan arti yang serupa namun memiliki bentuk atau form yang berbeda karena mendapatkan imbuhan yang berbeda.

Sebagai contoh kata bersama, kebersamaan, menyamai, akan distem ke root word-nya yaitu “sama”. Namun, seperti halnya stopping, kinerja stemming juga bervariasi dan sering tergantung pada domain bahasa yang digunakan.

Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia semua kata imbuhan baik itu sufiks dan prefiks juga dihilangkan.

TUGAS 1 - Membuat dan Menyimpan hasil kalsifikasi di software WEKA

Kunjungi website https://archive.ics.uci.edu/ml/datasets/Contraceptive+Method+Choice

1. Kemudian pilih data folder, download cmc.data setelah itu copy data di notepad lalu save as menjadi .csv yang akan berubah menjadi excel

Setelah itu buka aplikasi weka, pilih button explorer kemudian setelah terbuka pilih button open file untuk memilih file mana yang akan di gunakan dan jangan lupa file of type nya dirubah menjadi .csv

1. Pastikan WEKA sudah terinstall dengan benar
2. Buka WEKA, pilih Explorer