def my_function(a, b):
    return a + b

还有很多决定要留给代码的作者去做。你是否应该使用类型提示来表明参数的数据类型？你也许应该写一个文档串来解释这个函数的作用。如何实现逻辑仍然是100%由你决定的。你根本不需要把精力放在思考风格的选择上。

我建议你花10-15分钟浏览一下PEP8的风格指南，以吸取一些改进意见。每当你对某个特定的选择不确定时，你可以参考PEP8。

自动代码格式化器也有像Black这样的自动代码格式化器，可以为你自动格式化代码。这些都是很好的! 然而，你应该知道，它们有局限性。

举个例子，PEP8建议在Python中用Error这个词来结束一个自我定义的异常类。因此，一个代表数据处理错误的类的开头应该写成，例如

class DataProcessingError(Exception)。
---

这是像Black这样的自动格式化器无法为你解决的问题。通过各种方式，使用Black这样的自动格式化器。但还是要确保对PEP8的大部分内容烂熟于心。

但我不想这样做!

照片：Matthew Henry on Unsplash 有一些读者声称，代码格式和代码风格并不重要。如果你真的没有看到PEP8的重要性，那么这是很合理的。只是要知道，如果你不遵守它，许多人就会认为你的代码质量差。格式不好的代码会让人产生期待，就像到处都是拼写错误的邮件。

3 - 变量名--比听起来更难! 在Python中给变量、函数、类、模块和包命名是一项艰苦的工作。事实上，Phil Karlton 有以下的名言。

在计算机科学中只有两件难事：缓存失效和命名事物。- 菲尔-卡尔顿

幸运的是，大多数数据科学家不需要处理缓存失效的问题。然而，你却被命名的事情所困扰。Python包和模块应该有简洁的全小写的名字。让我们讨论一下如何给我们的宝贝们起好名字；变量、函数和类。

简单的--约定有几个简单的约定，一个人应该始终遵守。

首先，永远不要重写一个内置的东西。举个例子，创建以下变量可能是很诱人的。

a = 5
b = 2
min = 0
if a < b:
    min = a
else:
    min = b

上面的代码用一个变量min覆盖了内置函数min()。现在，如果你试图使用内置的min()函数，你的程序将会崩溃。引用《教父》的一句话："看看他们是如何屠杀我的孩子的！" 😧

其次，对于变量、函数和类，有一些PEP8的惯例你应该遵守。变量和函数的名称都应该是小写的，其中不同的字用下划线隔开。

my_variable = 5
def my_function(a, b):
   return a + b

如果一个变量打算在整个程序中保持不变，那么你可以把它写成大写字母来表示。

my_nonchanging_variable = 5 对于类来说，它们的名字应该用大写的单词连接起来，如下所示。

class MyAwesomeClass()
---

上面的变量名称的具体选择并不具有很强的信息量。这就是我们现在要讨论的命名的困难部分。

困难-主观性命名事物的困难之处在于不遵循上述的惯例。困难的部分是选择能够简洁地表明实体是什么（对于变量和类）或它做什么（对于函数）的名称。下面是我想强调的一些准则（适用于变量）。

仔细挑选长度。变量名称不应该太短或太长。太短的变量名，你最终会使用不是每个人都能理解的缩略语。你能说出c = 7或vprice = 5这些变量代表什么吗？断章取义，这些变量名有多糟糕是显而易见的。但是它们也可以扩展得太长，写成：

count_of_how_many_steps_our_pipeline_has = 7
variance_of_column_price_in_our_dataset = 5

现在它是可以理解的，但阅读起来却是一场噩梦。试着找到一个合适的中间点。

pipeline_steps = 7，variance_price = 7

怎么样？不要提到数据类型。把变量的数据类型悄悄放在名称中往往是很诱人的。我们中的许多人都曾犯过将Pandas数据框架称为df_new的错误。

我们的想法是，通过偷偷加入df作为数据框架的缩写，你可以向读者表明这是一个数据框架。这种方法被称为 "匈牙利符号"，在很大程度上是不可取的。

在Python中，你可以用type()函数很容易地检查某个东西的类型。如果你也在使用类型提示，那么匈牙利符号就完全没有用处了。我建议宁可把你可用的 "变量名里程 "用在更有用的地方。

使用直观的领域语言。你已经存储了西兰花、芹菜和甜菜等变量，这些变量统计了各自出售的蔬菜的数量。你现在需要一个容器类型（如字典）来存储所有这些变量。你怎么称呼这个字典呢？别担心，这不是一个骗人的问题。我不知道你怎么想，但我想把它叫做蔬菜。

尽可能地使用直观的领域语言。唯一的例外是，如果你期望你的代码被扩展到领域知识不再有意义的情况下。

对于函数，适用上述同样的准则（请不要将 "函数 "一词嵌入你的函数名称中）。唯一值得注意的是，函数通常是做一些事情而不是包含一些东西。因此，函数通常被赋予动作词（动词）以强调它们的作用。像prune_tree()和recommend_item()这样的名字就很好。

希望我已经说服了你，花一些时间给你的变量命名是值得的。在某些情况下，打破上述准则将是你最好的行动方案。例如，API（应用程序编程接口）的缩写是众所周知的。因此，名称为api_password的（私有！）变量是完全可以的。使用你自己的判断!

4 - 模块化你的代码不是所有的代码都是平等的。有些代码很难扩展。有些代码不容易被重复使用。有些代码很难检查出错误。在所有这些方面进行改进的方法是将你的代码模块化。

这在实践中是什么意思呢？你的代码应该被划分为函数和类。这些函数和类又应该被归入 Python 模块。为什么要这样做呢？

考虑一下那些没有以任何方式分组的代码 (你可能认为这些代码是 "自由漂浮 "的)。这在一开始写起来当然很方便。然而，随着代码的增长，它变得越来越麻烦。

你不得不复制和粘贴代码来进行小的调整。现在，如果你想扩展它，你必须在所有重复的地方改变代码。天知道如果有同事要求使用你的代码中的某个功能，你会怎么做--一切都完全交织在一起。不要让我开始讨论如何检查你的代码中的错误。

一开始只是为了方便，现在却变成了一场噩梦😧。

解决办法是什么？你应该定期地将你的代码重构为函数和类。让我们来看看函数的情况。一个函数是一段可重复使用的代码。当你的代码在逻辑上被分组为函数时，你可以。

很容易重复使用一些代码。由于一个函数是一个独立的片段，你可以将该特定的函数导出到其他设置中。也许你已经开发了一个很棒的函数

clean_missing_values()

来清理数据集中的缺失值。现在你也可以在其他项目中使用这个函数（只需做最小的调整）。

轻松地检查你的代码中的bug。函数可以通过单元测试来测试错误。在编写Python时，最常见的编写单元测试的库是Unittest和（我最喜欢的）Pytest。轻松地添加文档，使之更加清晰。

通过函数，你可以添加文档，解释它们的作用。你还可以给函数添加类型提示，向其他开发者和数据科学家解释输入和输出的数据类型。你会发现，一旦项目的复杂性增加，模块化的代码就会容易理解很多。

特别是对于数据科学家来说，代码经常被留在Jupyter笔记本单元中，完全没有模块化。这使得上述所有的问题如果长期得不到解决，就会变得活灵活现。

不要误会我的意思。Jupyter笔记本是数据探索和测试出机器学习模型的一个伟大工具。然而，请确保你设定一个时间，将代码重构为可维护的部分（函数和类）。

通过这样做，从长远来看，你会为自己节省很多痛苦。另外，你会成为团队中测试员/开发员最喜欢的人，这总是一个加分项😅。

5 -设计原则？没听说过! 你不使用设计原则？

通常情况下，设计原则是软件开发人员预先关注的东西。许多数据科学家的印象是，设计原则其实与他们没有太大关系。对于这种说法，我想指出Adam Judge关于一般设计的名言。

"好设计的替代品总是坏设计。不存在没有设计这回事。"--Adam Judge

亚当-贾奇肯定是在从视觉的角度谈论设计。然而，我认为这个结论对于写代码时的设计原则仍然是成立的。通过写代码，你正在使用设计原则。你也许只是没有很好地使用它们。

让我们从一些设计原则开始，来提高你的总体代码质量吧

可爱的首字母缩写词😍 照片：Gary Bendig on Unsplash 首先，有一些可爱的首字母缩写词正在被抛来抛去。你应该把这些当成指导原则，在写代码时牢记在心。

KISS: Keep It Simple Silly - 这个很直接。尽可能地减少复杂性。让我们举个例子。假设你想算出1到1000之间有多少个非平方数。

回顾一下，非平方数n只是一个不能用n=m**2来表示其他数字m的数字，下面的代码可以解决我们的问题。


non_square_numbers = len(set(range(1, 1001)).difference(set(map(lambda x: x ** 2, range(1, 1001))))))

诚实点吧。虽然上面的代码解决了问题（甚至使用了集合和map函数等很酷的功能），

但它看起来很可怕。你可能花了一些时间来阅读它。它太复杂了。请考虑以下的简化方案。

从数学输入sqrt

non_square_numbers = list(range(1, 1001))
for n in range(1, int(sqrt(1001)):
    non_square_numbers.remove(n ** 2)

新的代码不仅更清晰，而且更快。我只需要运行到1001的平方根的数字，因为我正在对数字进行平方运算。

从KISS中得到的教训是，有时让你的代码长一点也是值得的，如果它能让人更容易理解的话。

DRY：不要重复自己--这个原则鼓励将你的代码模块化为函数。通过这样做，你可以避免代码的重复。事实上，只要你发现自己有重复的代码，你就应该把你的代码模块化。

YAGNI: You Ain't Gonna Need It - 这个原则鼓励你不要过度设计解决方案。让我们来做一个具体的例子。

假设你正在编写一个数据管道，第一步是一个从SQL数据库中读取的函数。也许在未来，你还需要读取CSV文件。所以你也要实现这个功能。也许在未来，你还需要读取XML。或者JSON。或者Parquet文件。

在这种情况下，YAGNI的原则很简单。不要。你可能不需要所有的扩展，而且你写的代码永远不会被使用。相反，要确保你的代码有可能被扩展。但要把实际的扩展留到你真正有具体需要的时候再做。

遵循YAGNI原则，你的代码库会更小，需要担心的松散线程也会减少。

SOLID设计原则

一组成熟的设计原则（特别是在OOP中）是SOLID原则。它们形成了一组经过测试的设计原则，在过去的几十年里被大量使用。SOLID的五个设计原则是。

S - 单一责任原则 O--开放-封闭原则 L - 利斯科夫替代原则 I--接口隔离原则 D - 依赖性反转原则

并非所有的SOLID原则在数据科学中都同样有用。事实上，我很少在数据学科中使用Liskov的替代原则。不要误会我的意思，这是一个伟大的设计原则，我对Barbara Liskov非常尊敬。然而，在大量使用OOP的软件工程中，它肯定更有用。我认为SOLID原则中对数据科学家最重要的是单一责任原则。

单一责任原则指出，函数（以及类）应该有单一的责任。让我们通过一个例子来探讨这意味着什么。

假设你有一个函数process_data()，它将CSV文件加载为Pandas Dataframe，删除缺失的值，选择一些特征，然后最后绘制这些特征图。你的函数process_data()现在有四个职责：导入数据、清理数据、提取特征和绘图。为什么这样不好呢？

首先，现在要把你的代码输出到其他设置中去，难度就大了。你可能已经在函数process_data()中编写了顶级的缺失值清洗代码。你如何在其他地方使用这段代码，比如说，特征提取是不可能的？不是那么简单。

测试你的代码是否有错误也比较困难。通过做多件不同的事情，有更多的地方可以让bug隐藏。

单一责任原则建议将函数process_data()分成四个函数。这些函数可以被称为

import_csv_data()
clean_missing_values()
extract_features()
plot_features()

这样一来，每个函数都有一个单独的责任😃。

6 - 代码质量的进一步资源

我已经给了你一些提高代码质量的起点。接下来你应该到哪里去寻找关于这个主题的更多信息？

代码风格。

除了用心学习PEP8和使用有效的代码格式（如Black或autopep8）之外，真的没有更多的东西。如果你想确保你执行了这一点，那么就要求做代码审查的人对代码风格进行反馈。你可能还想研究一下PEP257中的Python惯例，以编写正确的文档说明。

变量名。我在这里最好的建议是注意你选择的变量名。除此以外，我在 Al Sweigart 的书《Beyond the Basic Stuff with Python》中发现了许多有趣的观点。

模块化的代码。编写模块化的代码需要努力。如果你不确定何时（以及如何）使用类，可以考虑学习更多关于OOP（面向对象的编程）的知识。我可以推荐免费的YouTube系列Python OOP教程作为一个好的起点。

除此之外，我建议你熟悉Python函数的每个方面，这样你就可以有效地使用它们。如果你不知道Python函数默认返回的值是None，那么你的代码可能会反映出这种知识的缺乏。

设计原则。我只是给了你一个关于设计原则的小建议。有一些关于这个主题的经典书籍，以及专门针对数据科学的书籍。不过，我还是要向你推荐ArjanCodes的YouTube视频。它们的质量非常高，而且对许多设计原则进行了专门的介绍。

7 - 总结

照片：Spencer Bergen on Unsplash 希望你在成为一个高质量的代码生产者的道路上走得更远。如果你的代码不是一夜之间就能完美的，也不要担心。获得高的代码质量是一个漫长的旅程，我仍然每天都在努力。

喜欢我的文章吗？请查看我的其他一些文章，了解更多的Python内容。

用美丽的类型提示Python代码现代化在Python中可视化缺失值是令人震惊的简单。用PyOD介绍Python中的异常/异样检测 🔥 5个强大的NumPy函数能在关键时刻救你一命 5个专家提示，让你在Python中的字典技能突飞猛进 🚀 如果你对数据科学、编程或两者之间的任何事情感兴趣，那么请随时在LinkedIn上添加我并打招呼 ✋