数据科学
· 3 min read
- Jupyter Notebook- 一种开源网络应用程序,用于创建和共享包含实时代码、可视化和文本的文档。
- Colab Notebook- 由谷歌托管的 Jupyter 笔记本,可免费使用 GPU 和机器学习工具。
- GitHub- Git 仓库托管服务,用于存储和管理代码以及跟踪更改。支持协作。
- 虚拟环境- 一种隔离的 Python 环境,允许安装用于特定应用程序的软件包,而不是全局安装。
- README 文件- 介绍和解释项目的文本文件。它包含的信息有助于他人理解和贡献。
- 需求文件- 列出运行应用程序所需的所有 Python 软件包依赖关系的文本文件。允许重复构建。
- Makefile- 包含一系列指令的文件,用于自动构建、测试和管理项目。
- 持续集成- 经常合并代码更改并自动构建和测试代码以快速发现问题的做法。
数据科学家的一天
数据推理分析框架
Data Science Structure
- Ingest
- EDA (Exploratory Data Analysis)
- Modeling: Learning Data -> Predict
- Conclusion: Strong Recommendation + Data support
一开始可以使用 Colab 去做以上流程。
GitHub CI 设置
Makefile
install:
pip install --upgrade pip &&\
pip install -r requirements.txt
test:
python -m pytest --nbval data_science_notebook.ipynb
format:
black *.py
lint:
pylint --disable=R,C hello.py
all: install lint test
CI
config main.yaml
name: Python application test with Github Actions
on: [push]
jobs:
build:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v2
- name: Set up Python 3.8
uses: actions/setup-python@v1
with:
python-version: 3.8
- name: Install dependencies
run: |
make install
- name: Test with pytest
run: |
make test
Requirements.txt
pytest
pylint
jupyter
pytest-cov
pandas
nbval
click
flask
requests