提交 b93dec0b 编写于 作者: W wizardforcel

2021-02-21 12:04:00

上级 0a517132
......@@ -802,7 +802,7 @@ Out[5]:-0.41810340026619164
1. 第一时刻只是您要查看的数据的平均值。 而已。 第一刻是平均值。 就这么简单。
2. 第二时刻是变化。 而已。 数据集的第二个时刻与方差值相同。 这些东西自然地不属于数学范畴,似乎有些令人毛骨悚然,但请考虑一下。 方差实际上是基于均值差异的平方,因此想出一种数学方法来表示方差与均值相关并不是很大。 就这么简单。
3. Now when we get to the third and fourth moments, things get a little bit trickier, but they're still concepts that are easy to grasp. The third moment is called skew, and it is basically a measure of how lopsided a distribution is.
3. 现在,当我们进入第三和第四时刻时,事情会变得有些棘手,但它们仍然是易于理解的概念。 第三时刻称为偏斜,基本上可以衡量分布的偏斜程度。
![](img/94f6ca96-30ca-4930-b926-a7a488f8e6b3.png)
......
......@@ -38,7 +38,7 @@ NumPy 是 Travis Oliphant 生产的一个很棒的 Python 软件包,它是从
NumPy 数组对象具有许多属性,这些属性有助于提供有关数组的信息。 以下是其重要属性:
* `ndim`: This gives the number of dimensions of the array. The following shows that the array that we defined had two dimensions:
* `ndim`: 这给出了数组的维数。 下面显示了我们定义的数组具有两个维度:
```py
>>> n_array.ndim
......@@ -48,7 +48,7 @@ NumPy 数组对象具有许多属性,这些属性有助于提供有关数组
`n_array`的排名为`2`,是 2D 数组。
* `shape`: This gives the size of each dimension of the array:
* `shape`: 这给出了数组每个维度的大小:
```py
>>> n_array.shape
......@@ -58,7 +58,7 @@ NumPy 数组对象具有许多属性,这些属性有助于提供有关数组
`n_array`的第一维的大小为`3`,第二维的大小为`4`。 这也可以可视化为三行四列。
* `size`: This gives the number of elements:
* `size`: 这给出了元素数量:
```py
>>> n_array.size
......@@ -68,7 +68,7 @@ NumPy 数组对象具有许多属性,这些属性有助于提供有关数组
`n_array`中的元素总数为 12。
* `dtype`: This gives the datatype of the elements in the array:
* `dtype`: 这给出了数组中元素的数据类型:
```py
>>> n_array.dtype.name
......@@ -614,7 +614,7 @@ a41 0.547655 0.692852 0.681825
有时,您会想要修改数据中的字符串字段列。 以下技术说明了一些字符串操作:
* **Substring**: Let's start by choosing the first five rows of the `AREA NAME` column in the data as our sample data to modify:
* **子字符串**:让我们首先选择数据中`AREA NAME`列的前五行作为我们的示例数据进行修改:
```py
>>> df = pd.read_csv('Data/Student_Weight_Status_Category_Reporting_Results__Beginning_2010.csv')
......@@ -665,7 +665,7 @@ a41 0.547655 0.692852 0.681825
```
* **Uppercase**: To convert the area name to uppercase, we'll use the following command:
* **大写**:要将区域名称转换为大写,我们将使用以下命令:
```py
>>> df['AREA NAME'][0:5].str.upper()
......@@ -720,7 +720,7 @@ a41 0.547655 0.692852 0.681825
```
* **Replace**: If we want to replace all the area names ending with `DISTRICT` to `DIST`, then the following command can be used:
* **替换**:如果我们要将所有以`DISTRICT`结尾的区域名称替换为`DIST`,则可以使用以下命令:
```py
>>> df['AREA NAME'][0:5].str.replace('DISTRICT$', 'DIST')
......@@ -807,7 +807,7 @@ p2 2 RAVENA COEYMANS SELKIRK CENTRAL SCHOOL DISTRICT ALBANY
有许多聚合操作,例如平均值,总和等,您希望在数字字段上执行这些操作。 这些是执行它的方法:
* **Average**: To find out the average number of students in the `ELEMENTARY` school who are obese, we'll first filter the `ELEMENTARY` data with the following command:
* **平均**:要找出`ELEMENTARY`学校肥胖学生的平均人数,我们将首先使用以下命令过滤`ELEMENTARY`数据:
```py
>>> data = d[d['GRADE LEVEL'] == 'ELEMENTARY']
......@@ -856,7 +856,7 @@ p2 2 RAVENA COEYMANS SELKIRK CENTRAL SCHOOL DISTRICT ALBANY
```
* **COUNT**: To count the total number of schools with the `ELEMENTARY` grade in the `DELAWARE` county, use the following command:
* **数量**:要计算`DELAWARE`县中具有`'ELEMENTARY'`等级的学校总数,请使用以下命令:
```py
>>> data = df[(d['GRADE LEVEL'] == 'ELEMENTARY') & (d['COUNTY'] == 'DELAWARE')]
......
......@@ -271,17 +271,17 @@ Twitter 情绪分析实景仪表板
数据科学的三大支柱
* **Data is your most valuable resource**: You need a proper data strategy to make sure data scientists have easy access to the curated contents they need. Properly classifying the data, set appropriate governance policies, and make the metadata searchable will reduce the time data scientists spend acquiring the data and then asking for permission to use it. This will not only increase their productivity, it will also improve their job satisfaction as they will spend more time working on doing actual data science.
* **数据是您最宝贵的资源**:您需要一种适当的数据策略,以确保数据科学家可以轻松访问所需的精选内容。 正确地对数据进行分类,设置适当的管理策略以及使元数据可搜索,将减少数据科学家花费在获取数据然后请求使用数据的时间。 这不仅将提高他们的生产率,还将提高他们的工作满意度,因为他们将花费更多的时间进行实际的数据科学工作。
*设置一种数据策略,使数据科学家能够轻松访问与其相关的高质量数据,从而提高了工作效率和士气,并最终提高了成功率。*
* **Services**: Every architect planning for data science should be thinking about a **service-oriented architecture** (**SOA**). Contrary to traditional monolithic applications where all the features are bundled together into a single deployment, a service-oriented system breaks down functionalities into services which are designed to do a few things but to do it very well, with high performance and scalability. These systems are then deployed and maintained independently from each other giving scalability and reliability to the whole application infrastructure. For example, you could have a service that runs algorithms to create a deep learning model, another one would persist the models and let applications run it to make predictions on customer data, and so on.
* **服务**:每个计划进行数据科学的架构师都应该考虑**面向服务的架构****SOA**)。 与将所有功能捆绑到一个部署中的传统整体式应用程序相反,面向服务的系统将功能分解为服务,这些服务旨在完成一些事情,但要做好,并具有高性能和可伸缩性。 然后,这些系统彼此独立部署和维护,从而为整个应用程序基础结构提供可伸缩性和可靠性。 例如,您可能有一项服务,该服务运行用于创建深度学习模型的算法,另一项服务将持久化模型并让应用程序运行它以对客户数据进行预测,依此类推。
优势显而易见:可重用性高,易于维护,缩短上市时间,可扩展性等等。 此外,这种方法非常适合云策略,因为工作负载的大小超出了现有容量,因此可以为您提供增长的途径。 您还希望优先考虑开源技术,并尽可能地在开放协议上进行标准化。
*将进程分解为较小的功能可将可伸缩性,可靠性和可重复性注入系统。*
* **Tools do matter!** Without the proper tools, some tasks become extremely difficult to complete (at least that's the rationale I use to explain why I fail at fixing stuff around the house). However, you also want to keep the tools simple, standardized, and reasonably integrated so they can be used by less skilled users (even if I was given the right tool, I'm not sure I would have been able to complete the house fixing task unless it's simple enough to use). Once you decrease the learning curve to use these tools, non-data scientist users will feel more comfortable using them.
* **工具确实很重要**!如果没有适当的工具,某些任务将变得非常难以完成(至少这是我用来解释为什么无法在房子周围固定东西的理由)。 但是,您还希望保持工具的简单,标准化和合理集成,以便不熟练的用户可以使用它们(即使我获得了正确的工具,我也不确定我是否能够完成房屋装修 任务,除非它足够简单才能使用)。 一旦减少使用这些工具的学习曲线,非数据科学家用户将更容易使用它们。
*使工具更易于使用有助于打破孤岛,并增强数据科学,工程和业务团队之间的协作。*
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册