Open Access. Powered by Scholars. Published by Universities.®

Physical Sciences and Mathematics Commons

Open Access. Powered by Scholars. Published by Universities.®

Statistics and Probability

Institution
Keyword
Publication Year
Publication
Publication Type
File Type

Articles 1441 - 1470 of 13261

Full-Text Articles in Physical Sciences and Mathematics

การปรับปรุงความสามารถในการพยากรณ์แบบไบนารี่โดยใช้การเรียนรู้เมตาแบบถ่วงน้ำหนักแบบปรับสำหรับการจำแนกความยากจนระดับครัวเรือนในประเทศไทย, ธารินทร์ สุขเนาว์ Jan 2022

การปรับปรุงความสามารถในการพยากรณ์แบบไบนารี่โดยใช้การเรียนรู้เมตาแบบถ่วงน้ำหนักแบบปรับสำหรับการจำแนกความยากจนระดับครัวเรือนในประเทศไทย, ธารินทร์ สุขเนาว์

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาปัจจัยที่มีความสัมพันธ์กับความยากจนในระดับครัวเรือนและเสนอวิธีการเปรียบเทียบและปรับปรุงความสามารถในการพยากรณ์แบบไบนารี่โดยใช้การเรียนรู้เมตาแบบถ่วงน้ำหนักแบบปรับจากการคำนวนค่าถ่วงน้ำหนักวิธีที่ดีที่สุดสำหรับการจำแนกความยากจนระดับครัวเรือนในประเทศไทย โดยนำเสนอวิธีการสองขั้นตอน คือนำตัววัดประสิทธิภาพการทำนายมาใช้ในการคำนวณค่าถ่วงน้ำหนักแบบปรับ ซึ่งนำมาใช้เสมือนเป็นค่าถ่วงน้ำหนักเริ่มต้นที่ให้กับแต่ละตัวแบบ จากนั้นจึงทำนายผลด้วยวิธีการวิเคราะห์การถดถอยลอจิสติกอีกขั้นตอนหนึ่ง งานวิจัยนี้ศึกษาการคำนวณค่าถ่วงน้ำหนักแบบปรับจากตัววัดประสิทธิภาพการทำนายใน 3 กรณี ได้แก่ 1. การใช้ค่า AUC 2. การใช้ค่า F1-Score โดยพิจารณาจุดตัด 0.5 และ 3. การใช้ค่า F1-Score โดยพิจารณาค่าจุดตัดที่เหมาะสมที่สุดจากดัชนีโยเดนที่สูงสุด นอกจากนี้ เนื่องจากชุดข้อมูลสำรวจประชากรรายครัวเรือนในระดับพื้นที่มีความไม่สมดุลของระดับความยากจน จึงใช้เทคนิค SMOTE ในการจัดการกับข้อมูลที่ไม่สมดุล ทั้งนี้ ผู้วิจัยได้ทำการเปรียบเทียบผลลัพธ์จากชุดข้อมูลก่อนและหลังใช้เทคนิค SMOTE ผลการศึกษาพบว่า ปัจจัยที่มีความสัมพันธ์กับความยากจนในระดับครัวเรือนสูงมีหลายปัจจัย อาทิ อายุของหัวหน้าครัวเรือน จำนวนผู้ที่ได้รับบัตรสวัสดิการแห่งรัฐในครัวเรือน,ค่าใช้จ่ายเพื่อการบริโภคในครัวเรือน เป็นต้น และวิธีการคำนวณค่าถ่วงน้ำหนักแบบปรับจากตัววัดประสิทธิภาพ F1-Score ที่จุดตัด 0.5 มีประสิทธิภาพสูงสุดจากการพิจารณาด้วยค่าความแม่นยำในชุดข้อมูลตั้งต้นก่อนใช้เทคนิค SMOTE อย่างไรก็ตาม จากการทดสอบในชุดข้อมูลที่มีการจัดการกับข้อมูลที่ไม่สมดุลด้วยวิธี SMOTE พบว่า ประสิทธิภาพในการทำนายไม่ปรากฏว่าวิธีการคำนวณค่าถ่วงน้ำหนักแบบปรับจากตัววัดประสิทธิภาพแบบใดแบบหนึ่งที่มีประสิทธิภาพสูงสุดอย่างชัดเจน


A Comparison Of Imbalanced Data Handling Methods For Pre-Trained Model In Multi-Label Classification Of Stack Overflow, Arisa Umparat Jan 2022

A Comparison Of Imbalanced Data Handling Methods For Pre-Trained Model In Multi-Label Classification Of Stack Overflow, Arisa Umparat

Chulalongkorn University Theses and Dissertations (Chula ETD)

Tag classification is essential in Stack Overflow. Instead of combining through pages or replies of irrelevant information, users can easily and quickly pinpoint relevant posts and answers using tags. Since User-submitted posts can have multiple tags, classifying tags in Stack Overflow can be challenging. This results in an imbalance problem between labels in the whole labelset. Pretrained deep learning models with small datasets can improve tag classification accuracy. Common multi-label resampling techniques with machine learning classifiers can also fix this issue. Still, few studies have explored which resampling technique can improve the performance of pre-trained deep models for predicting tags. …


Approximating Bayesian Optimal Sequential Designs Using Gaussian Process Models Indexed On Belief States, Joseph Burris Jan 2022

Approximating Bayesian Optimal Sequential Designs Using Gaussian Process Models Indexed On Belief States, Joseph Burris

Theses and Dissertations

Fully sequential optimal Bayesian experimentation can offer greater utility than both traditional Bayesian designs and greedy sequential methods, but practically cannot be solved due to numerical complexity and continuous outcome spaces. Approximate solutions can be found via approximate dynamic programming, but rely on surrogate models of the expected utility at each trial of the experiment with hand-chosen features or use methods which ignore the underlying geometry of the space of probability distributions. We propose the use of Gaussian process models indexed on the belief states visited in experimentation to provide utility-agnostic surrogate models for approximating Bayesian optimal sequential designs which …


Ga Pilot Perceptions Of Speech Systems To Transcribe And Submit Pireps, Deborah S. Carstens Ph.D., Pmp, Michael S. Harwin, J.D., M.S., Tianhua Li, Ph.D., Brandon J. Pitts, Ph.D., Mel Futrell, M.A., Barrett Caldwell, Ph.D. Jan 2022

Ga Pilot Perceptions Of Speech Systems To Transcribe And Submit Pireps, Deborah S. Carstens Ph.D., Pmp, Michael S. Harwin, J.D., M.S., Tianhua Li, Ph.D., Brandon J. Pitts, Ph.D., Mel Futrell, M.A., Barrett Caldwell, Ph.D.

International Journal of Aviation, Aeronautics, and Aerospace

Flying into hazardous weather can be a cause of aviation incidents and accidents. Accidents involving general aviation (GA) pilots who are not instrument rated who fly into instrument meteorological conditions (IMC) are often fatal. Pilot weather reports (PIREPs) can increase the accuracy and timeliness of current and forecasted weather conditions. They are an essential tool used by pilots to avoid flying into hazardous weather as well as meteorologists to develop and update aviation forecasts. Thus, a large number of accurate PIREPs with the best source of current weather coming from pilots and air traffic controllers are needed. Pilots are often …


Mis-Specification Of Functional Forms In Growth Mixture Modeling: A Monte Carlo Simulation, Richa Ghevarghese Jan 2022

Mis-Specification Of Functional Forms In Growth Mixture Modeling: A Monte Carlo Simulation, Richa Ghevarghese

Electronic Theses and Dissertations

Growth mixture modeling (GMM) is a methodological tool used to represent heterogeneity in longitudinal datasets through the identification of unobserved subgroups following qualitatively and quantitatively distinct trajectories in a population. These growth trajectories or functional forms are informed by the underlying developmental theory, are distinct to each subgroup, and form the core assumptions of the model. Therefore, the accuracy of the assumed functional forms of growth strongly influences substantive research and theories of growth. While there is evidence of mis-specified functional forms of growth in GMM literature, the weight of this violation has been largely overlooked. Current solutions to circumvent …


Using The Fraction Of Missing Information (Fmi) In Selecting Auxiliary Variables To Impute Missingness In Confirmatory Factor Analysis (Cfa), Dareen Taha Alzahrani Jan 2022

Using The Fraction Of Missing Information (Fmi) In Selecting Auxiliary Variables To Impute Missingness In Confirmatory Factor Analysis (Cfa), Dareen Taha Alzahrani

Electronic Theses and Dissertations

This study aimed to investigate the effectiveness of using the fraction of missing information (FMI) to select auxiliary variables in imputing missing data in confirmatory factor analysis (CFA). This was done by conducting two studies (a simulation study and an empirical study). A Monte Carlo simulation technique was used to compare the performance and the effect of the restrictive strategy based on FMI and the inclusive strategy on parameter estimate bias and parameter estimate efficiency. The missing data mechanisms, missing data proportion, correlation strength between the analysis variables and auxiliary variables, and the inclusive and restrictive strategies were assessed in …


Framework For The Evaluation Of Perturbations In The Systems Biology Landscape And Inter-Sample Similarity From Transcriptomic Datasets — A Digital Twin Perspective, Mariah Marie Hoffman Jan 2022

Framework For The Evaluation Of Perturbations In The Systems Biology Landscape And Inter-Sample Similarity From Transcriptomic Datasets — A Digital Twin Perspective, Mariah Marie Hoffman

Dissertations and Theses

One approach to interrogating the complexities of human systems in their well-regulated and dysregulated states is through the use of digital twins. Digital twins are virtual representations of physical systems that are descriptive of an individual's state of health, an object fundamentally related to precision medicine. A key element for building a functional digital twin type for a disease or predicting the therapeutic efficacy of a potential treatment is harmonized, machine-parsable domain knowledge. Hypothesis-driven investigations are the gold standard for representing subsystems, but their results encompass a limited knowledge of the full biosystem. Multi-omics data is one rich source of …


Graph Neural Networks For Improved Interpretability And Efficiency, Patrick Pho Jan 2022

Graph Neural Networks For Improved Interpretability And Efficiency, Patrick Pho

Electronic Theses and Dissertations, 2020-2023

Attributed graph is a powerful tool to model real-life systems which exist in many domains such as social science, biology, e-commerce, etc. The behaviors of those systems are mostly defined by or dependent on their corresponding network structures. Graph analysis has become an important line of research due to the rapid integration of such systems into every aspect of human life and the profound impact they have on human behaviors. Graph structured data contains a rich amount of information from the network connectivity and the supplementary input features of nodes. Machine learning algorithms or traditional network science tools have limitation …


Change Point Detection For Streaming Data Using Support Vector Methods, Charles Harrison Jan 2022

Change Point Detection For Streaming Data Using Support Vector Methods, Charles Harrison

Electronic Theses and Dissertations, 2020-2023

Sequential multiple change point detection concerns the identification of multiple points in time where the systematic behavior of a statistical process changes. A special case of this problem, called online anomaly detection, occurs when the goal is to detect the first change and then signal an alert to an analyst for further investigation. This dissertation concerns the use of methods based on kernel functions and support vectors to detect changes. A variety of support vector-based methods are considered, but the primary focus concerns Least Squares Support Vector Data Description (LS-SVDD). LS-SVDD constructs a hypersphere in a kernel space to bound …


Searching For Anomalous Extensive Air Showers Using The Pierre Auger Observatory Fluorescence Detector, Andrew Puyleart Jan 2022

Searching For Anomalous Extensive Air Showers Using The Pierre Auger Observatory Fluorescence Detector, Andrew Puyleart

Dissertations, Master's Theses and Master's Reports

Anomalous extensive air showers have yet to be detected by cosmic ray observatories. Fluorescence detectors provide a way to view the air showers created by cosmic rays with primary energies reaching up to hundreds of EeV . The resulting air showers produced by these highly energetic collisions can contain features that deviate from average air showers. Detection of these anomalous events may provide information into unknown regions of particle physics, and place constraints on cross-sectional interaction lengths of protons. In this dissertation, I propose measurements of extensive air shower profiles that are used in a machine learning pipeline to distinguish …


Statistical Theory For Specialized Linear Regression Adjustment Methods Compared To Multiple Linear Regression In The Presence And Absence Of Interaction Effects, Leon Su Jan 2022

Statistical Theory For Specialized Linear Regression Adjustment Methods Compared To Multiple Linear Regression In The Presence And Absence Of Interaction Effects, Leon Su

Theses and Dissertations--Statistics

When building models to investigate outcomes and variables of interest, researchers often want to adjust for other variables. There is a variety of ways that these adjustments are performed. In this work, we will consider four approaches to adjustment utilized by researchers in various fields. We will compare the efficacy of these methods to what we call the ”true model method”, fitting a multiple linear regression model in which adjustment variables are model covariates. Our goal is to show that these adjustment methods have inferior performance to the true model method by comparing model parameter estimates, power, type I error, …


Deriving The Distributions And Developing Methods Of Inference For R2-Type Measures, With Applications To Big Data Analysis, Gregory S. Hawk Jan 2022

Deriving The Distributions And Developing Methods Of Inference For R2-Type Measures, With Applications To Big Data Analysis, Gregory S. Hawk

Theses and Dissertations--Statistics

As computing capabilities and cloud-enhanced data sharing has accelerated exponentially in the 21st century, our access to Big Data has revolutionized the way we see data around the world, from healthcare to investments to manufacturing to retail and supply-chain. In many areas of research, however, the cost of obtaining each data point makes more than just a few observations impossible. While machine learning and artificial intelligence (AI) are improving our ability to make predictions from datasets, we need better statistical methods to improve our ability to understand and translate models into meaningful and actionable insights.

A central goal in the …


Beta Mixture And Contaminated Model With Constraints And Application With Micro-Array Data, Ya Qi Jan 2022

Beta Mixture And Contaminated Model With Constraints And Application With Micro-Array Data, Ya Qi

Theses and Dissertations--Statistics

This dissertation research is concentrated on the Contaminated Beta(CB) model and its application in micro-array data analysis. Modified Likelihood Ratio Test (MLRT) introduced by [Chen et al., 2001] is used for testing the omnibus null hypothesis of no contamination of Beta(1,1)([Dai and Charnigo, 2008]). We design constraints for two-component CB model, which put the mode toward the left end of the distribution to reflect the abundance of small p-values of micro-array data, to increase the test power. A three-component CB model might be useful when distinguishing high differentially expressed genes and moderate differentially expressed genes. If the null hypothesis above …


On Estimation Methods In Tensor Regression Models, Mai Ghannam Jan 2022

On Estimation Methods In Tensor Regression Models, Mai Ghannam

Electronic Theses and Dissertations

In this dissertation, we consider two estimation problems in some tensor regression models. The first estimation problem is about the tensor coefficient in a tensor regression model with multiple and unknown change-points. We generalize some recent findings in five ways. First, the problem studied is more general than the one in context of a matrix parameter with multiple change-points. Second, we develop asymptotic results of the tensor estimators in the context of a tensor regression with unknown change-points. Third, we construct a class of shrinkage tensor estimators that encompasses the unrestricted estimator (UE) and the restricted estimator (RE). Fourth, we …


Forecasting Bitcoin, Ethereum And Litecoin Prices Using Machine Learning, Sai Prabhu Jaligama Jan 2022

Forecasting Bitcoin, Ethereum And Litecoin Prices Using Machine Learning, Sai Prabhu Jaligama

Graduate Research Theses & Dissertations

This research aims to predict the cryptocurrencies Bitcoin, Litecoin and Ethereum using Time Series Modelling with daily data of closing price from 16th of October 2018 to 9th of September 2021for a total of 1073 days. Augmented Dickey Fuller test was first used to check stationarity of the time series, then two forecasting algorithms called ARIMA, and PROPHET were used to make predictions. The findings show similar results for both the models for each of Bitcoin, Ethereum and Litecoin. The results achieved show modelling cryptocurrencies which are volatile using a single variable produces satisfying results.


Impact Of Public And Private Investments On Economic Growth Of Developing Countries, Faruque Ahamed Jan 2022

Impact Of Public And Private Investments On Economic Growth Of Developing Countries, Faruque Ahamed

Graduate Research Theses & Dissertations

This paper aims to study the impact of public and private investments on the economic growth of developing countries. The study uses panel data from 39 developing countries covering the periods 1990-2019. The study is based on the neoclassical growth models or exogenous growth models in which land, labor, capital accumulation, etc., and technology proved substantial for economic growth. The paper uses the impact on overall GDP growth and GDP per capita growth. The study used a mixed-effect regression model and a Bayesian logistic regression model to derive the findings. For private investments, domestic credit has a positive association, but …


ตัวแบบการเรียนรู้ของเครื่องอิทธิพลผสมสำหรับการวิเคราะห์การรอดชีพเวลาไม่ต่อเนื่อง, มนัสพร ตรีรุ่งโรจน์ Jan 2022

ตัวแบบการเรียนรู้ของเครื่องอิทธิพลผสมสำหรับการวิเคราะห์การรอดชีพเวลาไม่ต่อเนื่อง, มนัสพร ตรีรุ่งโรจน์

Chulalongkorn University Theses and Dissertations (Chula ETD)

การวิเคราะห์การรอดชีพไม่ต่อเนื่องจะศึกษาบนข้อมูลตามยาวซึ่งชุดข้อมูลตามยาวมักถูกจัดเก็บเป็นตารางโดยข้อมูลแต่ละแถวแสดงถึงการจัดเก็บข้อมูลของบุคคลหนึ่ง ณ เวลาหนึ่งๆ ดังนั้น ข้อมูลจากบุคคลเดียวกันจึงประกอบไปด้วยข้อมูลหลายแถวซึ่งมีความสัมพันธ์กัน การใช้อัลกอริทึมการเรียนรู้ของเครื่องสำหรับการวิเคราะห์ชุดข้อมูลดังกล่าวมักมองข้ามความสัมพันธ์ของข้อมูลที่เกิดจากคนเดียวกัน แต่จะสมมติว่าข้อมูลแต่ละแถวเป็นอิสระต่อกัน งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาการวิเคราะห์การรอดชีพไม่ต่อเนื่องโดยเปรียบเทียบผลลัพธ์จากการพิจารณาความสัมพันธ์ของข้อมูลระหว่างบุคคลคนเดียวกัน โดยใช้ตัวแบบการสุ่มป่าไม้, CatBoost และโครงข่ายประสาทเทียม ที่พิจารณาเฉพาะอิทธิพลคงที่ และตัวแบบการเรียนรู้ของเครื่องอิทธิพลผสมที่พิจารณาทั้งอิทธิพลคงที่และอิทธิพลสุ่ม เพื่อพยากรณ์การเกิดเหตุการณ์บนข้อมูลการรอดชีพ 2 ชุด คือ ข้อมูลท่อน้ำดีอักเสบปฐมภูมิ และข้อมูลการคัดกรองและผลการคัดกรองโรคเบาหวานของประชากรไทย ซึ่งเป็นข้อมูลที่ขาดความสมดุลสูง ผลการศึกษาพบว่าสำหรับตัวแบบอิทธิพลคงที่ การพิจารณาความสัมพันธ์ของข้อมูลระหว่างบุคคลคนเดียวกันให้ประสิทธิภาพการพยากรณ์ที่ดีขึ้นเฉพาะเมื่อใช้ตัวแบบ CatBoost ในขณะที่ตัวแบบอิทธิพลผสมไม่ได้ให้ประสิทธิภาพการพยากรณ์ที่ดีขึ้นเสมอไปเมื่อเทียบกับตัวแบบที่พิจารณาเฉพาะอิทธิพลคงที่ โดยสรุป งานวิจัยนี้ได้แสดงให้เห็นว่าการพิจารณาความสัมพันธ์ของข้อมูลไม่ได้ส่งผลให้ประสิทธิภาพการพยากรณ์ดีขึ้นเสมอไป ทั้งบนตัวแบบอิทธิพลคงที่และตัวแบบอิทธิพลผสม ขึ้นอยู่ข้อจำกัดและปัจจัยต่างๆ เช่น ลักษณะข้อมูล ตัวแบบ การกำหนดตัวแปรอิทธิพลสุ่ม และวิธีการสกัดอิทธิพลคงที่จากตัวแบบ อย่างไรก็ตาม การใช้ตัวแบบอิทธิพลผสมร่วมกับการเรียนรู้ของเครื่องเป็นอีกหนึ่งวิธีการที่น่าลอง และสามารถทำให้ประสิทธิภาพการทำงานดีขึ้นจากการใช้เทคนิคการเรียนรู้ของเครื่องเพียงอย่างเดียว


Reducing Print Time While Minimizing Loss In Mechanical Properties In Consumer Fdm Parts, Long Le, Mitchel A. Rabsatt, Hamid Eisazadeh, Mona Torabizadeh Jan 2022

Reducing Print Time While Minimizing Loss In Mechanical Properties In Consumer Fdm Parts, Long Le, Mitchel A. Rabsatt, Hamid Eisazadeh, Mona Torabizadeh

Mechanical & Aerospace Engineering Faculty Publications

Fused deposition modeling (FDM), one of various additive manufacturing (AM) technologies, offers a useful and accessible tool for prototyping and manufacturing small volume functional parts. Polylactic acid (PLA) is among the commonly used materials for this process. This study explores the mechanical properties and print time of additively manufactured PLA with consideration to various process parameters. The objective of this study is to optimize the process parameters for the fastest print time possible while minimizing the loss in ultimate strength. Design of experiments (DOE) was employed using a split-plot design with five factors. Analysis of variance (ANOVA) was employed to …


A Non-Deterministic Deep Learning Based Surrogate For Ice Sheet Modeling, Hannah Jordan Jan 2022

A Non-Deterministic Deep Learning Based Surrogate For Ice Sheet Modeling, Hannah Jordan

Graduate Student Theses, Dissertations, & Professional Papers

Surrogate modeling is a new and expanding field in the world of deep learning, providing a computationally inexpensive way to approximate results from computationally demanding high-fidelity simulations. Ice sheet modeling is one of these computationally expensive models, the model used in this study currently requires between 10 and 20 minutes to complete one simulation. While this process is adequate for certain applications, the ability to use sampling approaches to perform statistical inference becomes infeasible. This issue can be overcome by using a surrogate model to approximate the ice sheet model, bringing the time to produce output down to a tenth …


Development Of Regional Landslide Susceptibility Models: A First Step Towards Model Transferability, Gina M. Belair Jan 2022

Development Of Regional Landslide Susceptibility Models: A First Step Towards Model Transferability, Gina M. Belair

Graduate Student Theses, Dissertations, & Professional Papers

Landslides are a globally pervasive problem with the potential to cause significant fatalities and economic losses. Although landslides are widespread, many at-risk regions may not have the high-quality data or resources used in most landslide susceptibility analyses. This study aims to develop regional susceptibility relationships that are versatile and use publicly available data and open-sourced software. Logistic Regression and Frequency Ratio susceptibility relationships were developed in 23 regions in Washington, Utah, North Carolina, and Kentucky, with a region referring to a unique area and data combination. Regions were diverse in their geology, morphology, climate, and nature and quality of their …


M-Cubes: An Efficient And Portable Implementation Of Multi-Dimensional Integration For Gpus, Ioannis Sakiotis, Kamesh Arumugam, Marc Paterno, Desh Ranjan, Balŝa Terzić, Mohammad Zubair Jan 2022

M-Cubes: An Efficient And Portable Implementation Of Multi-Dimensional Integration For Gpus, Ioannis Sakiotis, Kamesh Arumugam, Marc Paterno, Desh Ranjan, Balŝa Terzić, Mohammad Zubair

Computer Science Faculty Publications

The task of multi-dimensional numerical integration is frequently encountered in physics and other scientific fields, e.g., in modeling the effects of systematic uncertainties in physical systems and in Bayesian parameter estimation. Multi-dimensional integration is often time-prohibitive on CPUs. Efficient implementation on many-core architectures is challenging as the workload across the integration space cannot be predicted a priori. We propose m-Cubes, a novel implementation of the well-known Vegas algorithm for execution on GPUs. Vegas transforms integration variables followed by calculation of a Monte Carlo integral estimate using adaptive partitioning of the resulting space. mCubes improves performance on GPUs by maintaining relatively …


Exploring Cyberterrorism, Topic Models And Social Networks Of Jihadists Dark Web Forums: A Computational Social Science Approach, Vivian Fiona Guetler Jan 2022

Exploring Cyberterrorism, Topic Models And Social Networks Of Jihadists Dark Web Forums: A Computational Social Science Approach, Vivian Fiona Guetler

Graduate Theses, Dissertations, and Problem Reports

This three-article dissertation focuses on cyber-related topics on terrorist groups, specifically Jihadists’ use of technology, the application of natural language processing, and social networks in analyzing text data derived from terrorists' Dark Web forums. The first article explores cybercrime and cyberterrorism. As technology progresses, it facilitates new forms of behavior, including tech-related crimes known as cybercrime and cyberterrorism. In this article, I provide an analysis of the problems of cybercrime and cyberterrorism within the field of criminology by reviewing existing literature focusing on (a) the issues in defining terrorism, cybercrime, and cyberterrorism, (b) ways that cybercriminals commit a crime in …


A Monte Carlo Simulation Of Rat Choice Behavior With Interdependent Outcomes, Michelle A. Frankot Jan 2022

A Monte Carlo Simulation Of Rat Choice Behavior With Interdependent Outcomes, Michelle A. Frankot

Graduate Theses, Dissertations, and Problem Reports

Preclinical behavioral neuroscience often uses choice paradigms to capture psychiatric symptoms. In particular, the subfield of operant research produces nested datasets with many discrete choices in a session. The standard analytic practice is to aggregate choice into a continuous variable and analyze using ANOVA or linear regression. However, choice data often have multiple interdependent outcomes of interest, violating an assumption of general linear models. The aim of the current study was to quantify the accuracy of linear mixed-effects regression (LMER) for analyzing data from a 4-choice operant task called the Rodent Gambling Task (RGT), which measures decision-making in the context …


An Application Of Reinforcement Learning To Credit Scoring Based On The Logistic Bandit Framework, Kantapong Visantavarakul Jan 2022

An Application Of Reinforcement Learning To Credit Scoring Based On The Logistic Bandit Framework, Kantapong Visantavarakul

Chulalongkorn University Theses and Dissertations (Chula ETD)

This study applies reinforcement learning to credit scoring by using the logistic bandit framework. The credit scoring and the credit underwriting are modeled into a single sequential decision problem where the credit underwriter takes a sequence of actions over an indefinite number of time steps. The traditional credit scoring approach considers the model construction separately from the underwriting process. This approach is identified as a greedy algorithm in the reinforcement learning literature, which is commonly believed to be inferior to an efficient reinforcement learning approach such as Thompson sampling. This is true under the simple setting, i.e., granting credit to …


Multi-Output Learning For Predicting Evaluation And Reopening Of Github Pull Requests On Open-Source Projects, Peerachai Banyongrakkul Jan 2022

Multi-Output Learning For Predicting Evaluation And Reopening Of Github Pull Requests On Open-Source Projects, Peerachai Banyongrakkul

Chulalongkorn University Theses and Dissertations (Chula ETD)

GitHub's pull-based development model is widely used by software development teams to manage software complexity. Contributors create pull requests for merging changes into the main codebase, and integrators review these requests to maintain quality and stability. However, a high volume of pull requests can overburden integrators, causing feedback delays. Previous studies have used machine learning and statistical techniques with tabular data as features, but these may lose meaningful information. Additionally, acceptance and latency may not be sufficient for the pull request evaluation. Moreover, reopened pull requests can add maintenance costs and burden already-busy developers. This thesis proposes a novel multi-output …


Spatio-Temporal Copula-Based Graph Neural Networks For Traffic Forecasting, Pitikorn Khlaisamniang Jan 2022

Spatio-Temporal Copula-Based Graph Neural Networks For Traffic Forecasting, Pitikorn Khlaisamniang

Chulalongkorn University Theses and Dissertations (Chula ETD)

Modern cities heavily rely on complex transportation, making accurate traffic speed prediction crucial for traffic management authorities. Classical methods, including statistical techniques and traditional machine learning techniques, fail to capture complex relationships, while deep learning approaches may have weaknesses such as error accumulation, difficulty in handling long sequences, and overlooking spatial correlations. Graph neural networks (GNNs) have shown promise in extracting spatial features from non-Euclidean graph structures, but they usually initialize the adjacency matrix based on distance and may fail to detect hidden statistical correlations. The choice of correlation measure can have a significant impact on the resulting adjacency matrix …


การเปรียบเทียบวิธีการคัดเลือกตัวแปรแบบรวมกลุ่ม สำหรับข้อมูลที่มีลักษณะการจำแนกแบบไบนารี, กรชนก ชมเชย Jan 2022

การเปรียบเทียบวิธีการคัดเลือกตัวแปรแบบรวมกลุ่ม สำหรับข้อมูลที่มีลักษณะการจำแนกแบบไบนารี, กรชนก ชมเชย

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานศึกษานี้เปรียบเทียบวิธีการคัดเลือกตัวแปรแบบเดียว (Single-Feature Selection) และแบบรวมกลุ่ม (Ensemble Feature Selection) ซึ่งแบ่งเป็น 2 รูปแบบคือ รูปแบบการรวมลำดับความสำคัญของตัวแปรแล้วตามด้วยการเลือกจำนวนตัวแปรที่มีความสำคัญตามเกณฑ์ที่ระบุ (Design CT: Combination followed by Thresholding) และรูปแบบการการเลือกจำนวนตัวแปรที่มีความสำคัญตามเกณฑ์ที่ระบุแล้วตามด้วยการรวมเซตของตัวแปรที่มีความสำคัญดังกล่าว (Design TC: Thresholding followed by Combination) ผู้ศึกษาได้ใช้การคัดเลือกตัวแปรจากประเภท Filter Wrapper และ Embedded โดยใช้ 10-fold cross validation ในการเปรียบเทียบค่าเฉลี่ยของ F1-score แทนประสิทธิภาพการทำนายและค่าเบี่ยงเบนของ F1-score แทนค่าความเสถียรของการทำนาย ผ่านข้อมูล 3 ชุดได้แก่ Parkinson's Disease dataset (จำนวนตัวแปรต้น(P)=ขนาดข้อมูล(N)), LSVT Voice Rehabilitation dataset (P>N) และ Colon Cancer dataset (P>>N) ใช้ XGBoost เป็นตัวแบบทำนาย จากการศึกษาภายใต้ขอบเขตดังกล่าวพบว่า การคัดเลือกตัวแปรแบบวิธีเดียวด้วย RFE จะให้ผลดีในชุดข้อมูลที่มีมิติมาก P>>N ในเกณฑ์ 2.5% 5% และ 10% แต่การคัดเลือกแบบรวมกลุ่มจะให้ผลการทำนายที่ต่างกันภายใต้ลักษณะมิติของชุดข้อมูลและเกณฑ์ที่เลือกใช้ สำหรับการรวมลำดับความสำคัญของตัวแปรในรูปแบบ Design CT ด้วยค่ากลางและค่าเฉลี่ยเลขคณิตที่เกณฑ์ log2(P) จะให้ผลการทำนายดีกว่าวิธีอื่นใน Design CT ในชุดข้อมูล P>>N แต่สำหรับชุดข้อมูล P=N และ P>N ผลการทำนายจากแต่ละวิธีใน Design CT เพิ่มประสิทธิภาพการทำนายเล็กน้อย และสำหรับ Design TC การรวมเซตของตัวแปรต้นที่มีความสำคัญด้วยวิธีอินเตอร์เซกและมัลติอินเตอร์เซกจะให้ผลดีกว่าวิธียูเนียน สำหรับชุดข้อมูล P>>N ในทุกเกณฑ์ …


การเปรียบเทียบสถาปัตยกรรมโครงข่ายประสาทคอนโวลูชัน 3 มิติ โดยการจำแนกโรคหลอดเลือดสมองจากภาพการฉายรังสีเอกซเรย์สมอง, ชานนท์ วรโชติสืบตระกูล Jan 2022

การเปรียบเทียบสถาปัตยกรรมโครงข่ายประสาทคอนโวลูชัน 3 มิติ โดยการจำแนกโรคหลอดเลือดสมองจากภาพการฉายรังสีเอกซเรย์สมอง, ชานนท์ วรโชติสืบตระกูล

Chulalongkorn University Theses and Dissertations (Chula ETD)

แบบจำลองโครงข่ายคอนโวลูชัน หรือ ซีเอ็นเอ็น (Convolutional Neural Networks หรือ CNN) ได้รับการนำมาใช้กันอย่างแพร่หลายในการจำแนกภาพ โดยเฉพาะในทางการแพทย์ ซึ่งปกติการจำแนกภาพทางการแพทย์นิยมใช้โครงข่ายคอนโวลูชั่น 2 มิติ แต่เนื่องจากข้อมูลภาพบางประเภท เช่น ภาพการฉายรังสีเอกซเรย์สมองมีลักษณะมองภาพ 3 มิติ ให้เป็นภาพ 2 มิติ ดังนั้นในงานวิจัยนี้จึงมีแนวคิดในการใช้โครงข่ายคอนโวลูชัน 3 มิติมาใช้ในการจำแนกภาพเพื่อนำเอาจุดเด่นจากความสามารถในการดึงคุณลักษณะความสัมพันธ์ในชั้นความลึกที่เพิ่มเข้ามาซึ่งมีความแตกต่างจากรูปแบบ 2 มิติ เพื่อเพิ่มประสิทธิภาพให้แบบจำลองสามารถดึงคุณลักษณะสำคัญของภาพให้มีความหลากหลายมากขึ้น งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพโครงข่ายคอนโวลูชัน 3 มิติ ร่วมกับแบบจำลองที่ถูกฝึกมาเรียบร้อยแล้ว (pre-trained model) 4 แบบจำลอง ประกอบไปด้วย อเล็กซ์เน็ต (Alexnet) วีจีจี-16 (Vgg-16) กูเกิลเน็ต (Googlenet) และเรสเน็ต (Resnet) เพื่อจำแนกข้อมูลภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมอง และผู้ป่วยที่มีสุขภาพปกติ จากภาพฉายรังสีเอกซเรย์สมอง (CT-Scan) จากฐานข้อมูลเว็บไซด์ Kaggle ชุดข้อมูลประกอบด้วยภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมอง 950 ภาพ จาก 40 คน และภาพผู้ป่วยสุขภาพปกติ 1551 ภาพ จาก 82 คน ซึ่งงานวิจัยนี้มีการปรับรายละเอียดโดยการนำจุดเด่นของแต่ละแบบจำลองมาใช้ และเพิ่มชั้นความลึกที่เป็นจุดเด่นของการค้นหาคุณลักษณะสำคัญของรูปแบบ 3 มิติ ร่วมกับการประมวลผลภาพล่วงหน้า (Image Preprocessing) และการทำการเพิ่มจำนวนข้อมูล (Data augmentation) เพื่อเพิ่มประสิทธิภาพของแบบจำลอง จากนั้นเพื่อไม่ให้การทดลองโน้มเอียงต่อแต่ละแบบจำลอง มีการนำเทคนิค K-Fold Cross validation (K=5) มาเพื่อแก้ปัญหาในงานวิจัยชิ้นนี้ ในส่วนของการวัดประสิทธิภาพผลการทดลองใช้ Confusion matrix เป็นเครื่องมือในการประเมินประสิทธิภาพของแบบจำลอง ซึ่งพบว่าสมรรถนะแบบจำลองโครงข่ายคอนโวลูชันกูเกิลเน็ต 3 มิติ ให้ผลลัพธ์ที่ดีที่สุด โดยผลการทดสอบการจำแนกภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมองจากภาพฉายรังสีเอกซเรย์ ให้ค่าความแม่นยำ ความเที่ยงตรง ค่าความครบถ้วน และ F1-Score ที่ 92.00% 94.01% 83.96% และ 88.70% …


การเปรียบเทียบอัลกอริทึมระหว่างการสุ่มตัวอย่างแบบทอมสันและอัลกอริทึมความเชื่อมั่นขอบเขตบน สำหรับการเรียนรู้แบบเสริมแรงในเกมเป่ายิ้งฉุบ, ธันยวุฒิ อักขระสมชีพ Jan 2022

การเปรียบเทียบอัลกอริทึมระหว่างการสุ่มตัวอย่างแบบทอมสันและอัลกอริทึมความเชื่อมั่นขอบเขตบน สำหรับการเรียนรู้แบบเสริมแรงในเกมเป่ายิ้งฉุบ, ธันยวุฒิ อักขระสมชีพ

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพระหว่างอัลกอริทึมการสุ่มตัวอย่างแบบทอมสันและอัลกอริทึมความเชื่อมั่นขอบเขตบน ในตัวแบบการเรียนรู้แบบเสริมแรงกับการตัดสินใจเชิงพฤติกรรมของมนุษย์ ทั้งสองอัลกอริทึมเป็นอัลกอริทึมที่มีประสิทธิภาพในการแก้ไขปัญหาแบนดิทหลายแขน แต่ไม่ชัดเจนว่าทั้งสองอัลกอริทึมจะมีประสิทธิภาพอย่างไรกับปัญหาการตัดสินใจเชิงพฤติกรรมของมนุษย์ที่ความซับซ้อนทางด้านพฤติกรรม งานวิจัยนี้จำลองเกมเป่ายิ้งฉุบแทนปัญหาการตัดสินใจของมนุษย์ โดยมีองค์ประกอบเชิงพฤติกรรม 2 องค์ประกอบ คือ พฤติกรรมการใช้กลยุทธตามเข็มนาฬิกาแบบผสม และพฤติกรรมการใช้กลยุทธยุติการสูญเสีย โดยตัวแบบเกมเป่ายิ้งฉุบถูกจำลองขึ้นตามกระบวนการตัดสินใจแบบมาร์คอฟ ตัวแทนตัวแบบจากทั้งสองอัลกอริทึมจะแก้ไขปัญหาดังกล่าวและวัดประสิทธิภาพด้วยผลรางวัลสะสมภายใต้เงื่อนไขการจำลองในรูปแบบต่าง ๆ ผลการเปรียบเทียบประสิทธิภาพพบว่า ตัวแทนตัวแบบจากอัลกอริทึมความเชื่อมั่นขอบเขตบนมีประสิทธิภาพดีกว่าตัวแทนตัวแบบจากอัลกอริทึมการสุ่มตัวอย่างแบบทอมสันในการจำลองส่วนใหญ่ ยกเว้นกรณีการจำลองที่รูปแบบพฤติกรรมของมนุษย์มีความชัดเจนเป็นระยะเวลายาว ตัวแทนตัวแบบจากอัลกอริทึมการสุ่มตัวอย่างแบบทอมสันมีประสิทธิภาพดีกว่าตัวแทนตัวแบบจากอัลกอริทึมความเชื่อมั่นขอบเขตบน


การจำลองข้อมูลเพื่อประเมินประสิทธิภาพของการเลือกตัวอย่างแบบมีระบบชนิดผสม, นภสร รัตนวุฒิขจร Jan 2022

การจำลองข้อมูลเพื่อประเมินประสิทธิภาพของการเลือกตัวอย่างแบบมีระบบชนิดผสม, นภสร รัตนวุฒิขจร

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของตัวประมาณค่าเฉลี่ยที่ได้จากการเลือกตัวอย่างแบบมีระบบชนิดผสม (Mixed Systematic Random Sampling : MRSS) กับการเลือกตัวอย่างแบบมีระบบชนิดวงกลม (Circular Systematic Sampling : CSS) และการเลือกตัวอย่างแบบมีระบบโดยใช้ช่วงเศษส่วน (Fractional Interval) สำหรับกรณีช่วงของการเลือกตัวอย่างไม่เป็นจำนวนเต็ม เมื่อประชากรมีแนวโน้มเชิงเส้น ด้วยค่าความคลาดเคลื่อนกำลังสองเฉลี่ย (Mean Square Error : MSE) และเปรียบเทียบประสิทธิภาพของการเลือกตัวอย่างแบบมีระบบทั้ง 3 วิธีด้วยค่าประสิทธิภาพสัมพัทธ์ (Relative Efficiency : RE) โดยการจำลองข้อมูลของประชากรเป็น 3 ขนาด แบ่งเป็น ขนาดเล็กหลักร้อย ได้แก่ 300, 500 และ 700 ขนาดกลางหลักพัน ได้แก่ 3,000, 5,000 และ 7,000 ขนาดใหญ่หลักหมื่น ได้แก่ 30,000, 50,000 และ 70,000 ด้วยโปรแกรม R กำหนดขนาดตัวอย่างที่ทำให้สัดส่วนระหว่างขนาดประชากรและขนาดตัวอย่างไม่เป็นจำนวนเต็ม ทำซ้ำทั้งหมด 1,000 ครั้ง พบว่าการเลือกตัวอย่างแบบมีระบบด้วยวิธี MRSS มีค่า MSE สูงกว่าการเลือกตัวอย่างอีกทั้ง 2 วิธี แต่เมื่อค่า g = 2 จะทำให้ค่าของ MSE ของการเลือกตัวอย่างทั้ง 3 วิธีมีค่ามากขึ้น โดยที่ค่า MSE ของการเลือกตัวอย่างแบบมีระบบชนิดผสมมีค่าต่ำกว่าการเลือกตัวอย่างแบบมีระบบชนิดวงกลมและวิธีใช้ช่วงเศษส่วน ทั้งนี้เป็นผลเนื่องมาจากค่า g เป็นค่าที่กำหนดความเป็นเชิงเส้น เมื่อค่า g เพิ่มมากขึ้น ความเป็นเชิงเส้นของประชากรจะลดลง ทำให้ตัวประมาณค่าเฉลี่ยตัวอย่างที่คำนวณได้มีค่าต่างจากค่าเฉลี่ยประชากรมากตามไปด้วย จึงสามารถสรุปได้ว่าตัวประมาณค่าเฉลี่ยที่ได้จากวิธีการเลือกตัวอย่างแบบมีระบบชนิดผสม มีแนวโน้มที่จะให้ค่า MSE สูงที่สุด เมื่อเทียบกับการเลือกตัวอย่างแบบมีระบบชนิดวงกลมและการเลือกตัวอย่างแบบมีระบบโดยใช้ช่วงเศษส่วน