Проект команды НЛП

Введение

Курс иностранной валюты или курс FOREX — это курс, по которому одна валюта обменивается на другую. Проще говоря, это стоимость одной валюты в другой. Валютный рынок определяет курсы FOREX, которые часто колеблются в зависимости от сделок между трейдерами. Например, обменный курс найры к доллару составляет 415,76. Это означает, что для покупки доллара требуется 415,76 найры.

Как мы, должно быть, слышали, данные — это новая нефть. Технология науки о данных — это дисциплина, которая работает с наборами данных, используя различные методы и процессы для извлечения полезной информации. Он помогает выявить и изучить закономерности возникновения тех или иных предметов изучения. На данный момент наука о данных изменила то, как профессионалы в разных областях делают наблюдения и принимают решения. Какой лучший способ действовать, если не на основе тенденций и измеримых идей.

Для этого проекта команда НЛП HDSC Winter ’22 использовала необработанный набор данных, содержащий информацию об обменных курсах примерно 21 страны. Набор данных предоставил курсы FOREX за 20 лет с 2000 по 2009 год. Команда использовала информацию из этих данных, чтобы понять взаимосвязь между тенденциями курсов FOREX и прогнозировать изменения в выбранных странах.

Методы анализа

Большинство отраслевых обозревателей сообщают, что этапы подготовки данных для бизнес-анализа или машинного обучения занимают от 70 до 80% времени, затрачиваемого учеными и аналитиками данных. Конвейер подготовки данных для наборов данных курсов FOREX состоит из следующих шагов:

  1. Извлеките и загрузите данные

Данные для нашей проектной группы озаглавлены: PP22/T616 на Средней странице Hamoye в сфере торговли, сельского хозяйства и финансов. Он относится к теме Курсы иностранных валют. Доступ к набору данных для этого проекта был получен из каталога kaggle. Jupyter Notebook использовался в качестве основного инструмента для очистки и анализа данных. С другой стороны, Python использовался в качестве языка запросов. Все соответствующие библиотеки из библиотек машинного обучения Python были успешно импортированы. Затем мы загрузили наш набор данных, который уже был загружен, в локальный каталог в формате файлов с разделителями-запятыми (.csv).

  1. Преобразование даты

Очистка данных — это процесс обеспечения правильности, согласованности и пригодности данных. Вы можете очищать данные, выявляя ошибки или повреждения, исправляя или удаляя их или вручную обрабатывая данные по мере необходимости, чтобы предотвратить повторение тех же ошибок.

При очистке наших данных мы запросили набор данных, чтобы узнать о нем больше, используя метод info(). При этом было замечено, что набор данных содержит 5217 строк (данные в диапазоне от индекса 0 до 5216) и 24 столбца, содержащих различные страны, которые мы должны изучить. Также было замечено, что столбец временных рядов, расположенный в индексе 1, относится к объектному типу данных. Следовательно, было уместно преобразовать его в формат даты и времени, чтобы сделать его пригодным для использования.

Точно так же другие столбцы с индексами от 2 до 23, которые изначально были в формате объекта, были преобразованы в тип данных с плавающей запятой. Единица данных (индекс 0), которая имела «безымянный» в качестве имени столбца, была удалена из набора данных с использованием метода удаления. Это было сделано, потому что это была копия нашего индексного столбца. Этот процесс сократил наш набор данных с исходных 24 столбцов до 23 столбцов.

С помощью метода isnull() было учтено общее количество пропущенных значений. Эти отсутствующие значения варьировались от 197 до 201 в столбцах разных стран. Следовательно, разумно удалять такие значения с помощью функции dropna(). Удаление этих отсутствующих значений оставляет набор данных только с действительными и значимыми значениями. После разумного выполнения этих шагов общий набор данных составил новое значение 5015 строк и 23 столбца. После завершения процесса очистки набор данных стал готов к исследованию и дальнейшему анализу.

Исследовательский анализ данных

Методы исследовательского анализа данных (EDA) по-прежнему широко используются в процессе обнаружения данных. Это помогает специалистам по данным проводить первоначальные исследования предоставленных данных, чтобы обнаруживать закономерности, выявлять аномалии и проверять предположения, используя сводную статистику и графические представления. Исследователи данных могут использовать исследовательский анализ, чтобы убедиться, что полученные результаты действительны и применимы к любым желаемым бизнес-результатам и целям.

После завершения EDA и получения информации можно использовать его функции для более сложного анализа данных или моделирования. Существует ряд инструментов, используемых для выполнения EDA. Тем не менее, Python является предпочтительным выбором для этого проекта. Python — это объектно-ориентированный язык программирования с динамической семантикой. Его высокоуровневые встроенные структуры данных в сочетании с динамической типизацией и библиотеками делают его очень привлекательным для быстрой разработки приложений, обучения и построения моделей.

Последовательный процесс выполнения визуализации данных в предоставленном наборе данных

  • Преобразование данных из разных валют в доллары США (USD). Это достигается путем инверсии каждого предоставленного значения. Чтобы оценить тренд между валютами, важно, чтобы все валюты были в одном формате.
  • Проверьте среднюю стоимость каждой валюты в долларах США за четыре квартала в течение указанных лет. Это дает дополнительное представление о ежегодных изменениях, происходящих для каждой валюты на ежеквартальной основе.
  • Проверьте заметные тенденции в предоставленном наборе данных. Некоторые результирующие тенденции указывали на то, что евро укреплялся до 2015 года, когда он обесценился с 0,75 до 0,94. Однако в 2019 году он снова вырос до значения 0,89. Фунты Соединенного Королевства укреплялись с 2000 по 2009 год, хотя до 2019 года он обесценивался по отношению к доллару США. У Новой Зеландии дела шли хорошо, поскольку с 2000 по 2003 год он сохранял высокую стоимость.
  • Создайте график, чтобы определить страну с самой высокой валютой/долларом США. Из сгенерированного графика можно сделать вывод, что фунты Соединенного Королевства являются самой высокой стоимостью валюты по отношению к долларам США.
  • Кроме того, создайте график для определения страны с самой низкой валютой/долларом США. Из сгенерированного графика видно, что корейские воны являются самой низкой стоимостью валюты по отношению к долларам США.
  • Проверьте соотношение между самыми низкими и самыми высокими трендовыми валютами (например, фунтами стерлингов Соединенного Королевства и корейскими вонами).
  • Наблюдайте за улучшением каждой валюты в долларах США. На диаграмме положительный рост валют обозначен синим цветом, отрицательный рост валют – красным.
  • Определите трендовые валюты в соответствии с последней датой 2019 года, указанной в наборе данных. Это показывает самые сильные и самые слабые валюты, как указано в наборе данных.
  • Создайте график тепловой карты корреляции для валют. Тепловая карта — это метод визуализации данных, который показывает величину явления в виде цвета в двух измерениях. На созданной тепловой карте было учтено наблюдение, что валюты евро и датская крона имеют идеальную положительную корреляцию. Это ясно объяснено в прикрепленной ссылке https://en.wikipedia.org/wiki/Denmark_and_the_euro.
  • Используйте точечный график, чтобы проверить корреляцию между валютами евро и Дании. На приведенном выше графике наблюдается чистая простая линия регрессии.
  • Создайте график, чтобы показать набор валют, имеющих высокую корреляцию. Это делается для того, чтобы показать взаимосвязь между предоставленными валютами, представленными в долларовом формате.
  • Получите максимальную, минимальную и последнюю дневную цену каждой валюты. Также укажите годы, в которые произошли эти события. Это дает представление о важных фискальных событиях, которые произошли в течение предоставленного периода данных.

Модели прогнозирования

Мы решили работать с 4 выбранными валютами на основе данных о наиболее торгуемых валютах из investopedia. Выбранными странами являются Великобритания (фунты), зона евро (евро), Австралия (AUD) и Новая Зеландия (NZD).

Методы, используемые для прогнозирования и построения модели, включают тест АДФУЛЛЕРА, график автокорреляции и модуль Пророка. Мы выбрали эти библиотеки, потому что заметили, что наши наборы данных не являются стационарными, и они будут лучшим вариантом для прогнозного анализа.

Результаты и наблюдения

  1. Прогноз FOREX по австралийскому доллару

2. Прогноз FOREX в еврозоне

3. Прогноз новозеландского доллара

4. Прогноз FOREX для фунта стерлингов Соединенного Королевства

Заключение

Валютный рынок оказывает прямое влияние на заработную плату, трансграничные инвестиции и экономику в целом. Финансовые учреждения, компании, правительства и другие организации используют этот рынок для корректировки своих валютных запасов. Это указывает на необходимость получения точных оценок и прогнозов рыночных тенденций. В этом исследовании предлагаются средства использования технологии обработки данных для оценки и прогнозирования таких тенденций в экономике страны по отношению к ее эквиваленту в долларах США.