日期:2022-02-14
這是樣本估計總體公式原理,是優秀的數學教案文章,供老師家長們參考學習。
1936年,美國的《文學摘要》雜志對該年度美國總統選舉進行預測.它公開發行了1000萬份調查問卷,回收200萬份,試圖通過這200萬份問卷中所反映的選舉意向推斷出全體選民的選舉意向.它的預測結果是蘭登與羅斯福的獲勝率各為57℅和43℅,而實際結果卻是羅斯福以62℅對38℅的巨大優勢入主白宮.該雜志因此名聲掃地,終于關門大吉.
該調查中,樣本容量是200萬,已經足夠大了,為何還會出現這種反差呢?究其原因,雜志社在發出1000萬份調查問卷時,是按照電話本和俱樂部成員名單發放的,所取的樣本明顯帶有傾向性——當時的人很少擁有私人電話或屬于某個俱樂部,因此調查一開始就指向了有錢人群體.但是窮人卻壓倒多數地投了羅斯福的票,這就導致了調查的失敗.簡言之,該調查的樣本部具有代表性,這是個致命的錯誤抽樣的目的是通過對樣本的研究以推斷總體——這也是統計學的重要意義之一.比如調查某市5000名學生的數學成績,我們從中抽取500個進行分析.由于樣本來自總體,它應包含總體所具有的信息,我們正是通過分析這些信息進而推斷總體的特征,比如以上成績的平均分;但是,如果樣本不具有代表性,就會隱藏很多有用的信息,而突出一些不必要的干擾信息——導致了分析結果的誤差偏大.選取一個有代表性的樣本,是抽樣調查有效的首選要素.
另一方面,樣本的大小也很重要.總體可以看作一個最大的樣本,但是因為時間、人力、物力、破壞性等因素,條件不允許我們做普查,因此只能折中一下:在條件許可的范圍內選取一個盡可能大的樣本,以期獲得更多的必要的信息.
針對不同的問題,有簡單隨機抽樣、系統抽樣、分層抽樣等多種抽樣方法,其共同點是在抽樣過程中每個個體被抽取的概率相等,這就從概率的角度保證了所抽取樣本盡量具有代表性.下面我們看幾個實例.
例1、一個魚缸里有多少條魚容易數出來,那么怎樣知道一個池塘里有多少條魚?
該問題不宜普查——否則就要把池塘里的水抽干,而這種做法是不可取的.我們可以采用以下做法:從池塘里捕上100條做上標記,然后放回池塘里去,經過一段時間,待帶標記的魚完全混合于魚群后,第二次再捕上200條,若其中帶標記的魚有25條,則池塘里的魚的總數大約是=800條.
如果擔心一次試驗的結果具有偶然性,我們可以多做幾次試驗,然后求幾次試驗的平均數,一般地,數次試驗的平均數會更好地接近真實數據。
例2、某農戶在山上種了柚桃樹88株,現進入第三年收獲季節,隨意采摘5株果樹上的柚桃,稱得每株樹上的柚桃重量如下(單位:㎏):35,35,34,39,37.估計這年柚桃總產量約是多少?
因為是隨機選取樣本,應認為該樣本具有代表性.計算出選取的5株平均重量是(35+35+34+39+37)÷5=36㎏,那么估計所有柚桃樹的總產量大約是633.6㎏.
該例的思想被廣泛地用于農業生產。比如要估計試驗地里將要成熟的水稻的產量時,我們不是把整片的水稻全部割下來稱量(畢竟沒有完全成熟),而是選取相對成熟的一小片作為樣本,計算其產量,然后用一個比例式求出整片地的產量。
樣本不僅在平均數上體現總體,我們在后繼課程中還要學習更多的用樣本估計總體的數據指標,比如中位數、眾數、方差、概率等等,讓我們翹首以盼吧!
一. 學習目標
(1)通過實例體會分布的意義與作用; (2)在表示樣本數據的過程中,學會列頻率分布表,畫頻率分布直方圖,頻率折線圖; (3)通過實例體會頻率分布直方圖,頻率折線圖,莖葉圖的各自特點,從而恰當的選擇上述方法分析樣本的分布,準確的作出總體估計。
二. 學習重點
三.學習難點
能通過樣本的頻率分布估計總體的分布。
四.學習過程 (一)復習引入
(1 )統計的核心問題是什么?
(2 )隨機抽樣的幾種常用方法有哪些?
(3)通過抽樣方法收集數據的目的是什么?
(二)自學提綱
1.我們學習了哪些統計圖?不同的統計圖適合描述什么樣的數據?
2.如何列頻率分布表?
3.如何畫頻率分布直方圖?基本步驟是什么?
4.頻率分布直方圖的縱坐標是什么?
5.頻率分布直方圖中小長方形的面積表示什么?
6.頻率分布直方圖中小長方形的面積之和是多少?
(三)課前自測
1.從一堆蘋果中任取了20只,并得到了它們的質量(單位:g)數據分布表如下:
分組 [90,100) [100,110) [110,120) [120,130) [130,140) [140,150) 頻數 1 2 3 10 1 則這堆蘋果中,質量不小于120g的蘋果數約占蘋果總數的__________%. 2.關于頻率分布直方圖,下列說法正確的是( ) A.直方圖的高表示該組上的個體在樣本中出現的頻率 B.直方圖的高表示取某數的頻率 C.直方圖的高表示該組上的樣本中出現的頻率與組距的比值 D.直方圖的高表示該組上的個體在樣本中出現的頻數與組距的比值 3.已知樣本:10,8,6,13,8,10,12,11,7,8,9,11,9,12,9,10,11,11,12,那么頻率為0.2的范圍是( ) A、5.5-7.5 B、7.5-9.5 C、9.5-11.5 D、11.5-13.5 (四)探究教學 典例:城市缺水問題(自學教材65頁~68頁)
問題1.你認為為了較為合理地確定出這個標準,需要做哪些工作? 2.如何分析數據?根據這些數據你能得出用水量其他信息嗎? 知識整理: 1.頻率分布的概念: 頻率分布: 頻數: 頻率:
2.畫頻率分布直方圖的步驟: (1).求極差: (2).決定組距與組數 組距: 組數: (3).將數據分組 (4).列頻率分布表 (5).畫頻率分布直方圖 問題: .
1.月平均用水量在2.5—3之間的頻率是多少?
2.月均用水量最多的在哪個區間?
3.月均用水量小于4.5 的頻率是多少?
4.小長方形的面積=?
5.小長方形的面積總和=?
6.如果希望85%以上居民不超出標準,如何制定標準?
7.直方圖有那些優點和缺點?
例題講解: 例1有一個容量為50的樣本數據的分組的頻數如下: [12.5, 15.5) 3 [15.5, 18.5) 8 [18.5, 21.5) 9 [21.5, 24.5) 11 [24.5, 27.5) 10 [27.5, 30.5) 5 [30.5, 33.5) 4 (1)列出樣本的頻率分布表; (2)畫出頻率分布直方圖; (3)根據頻率分布直方圖估計,數據落在[15.5, 24.5)的百分比是多少? (4)數據小于21.5的百分比是多少?
3.頻率分布折線圖、總體密度曲線 問題1:如何得到頻率分布折線圖 ? 頻率分布折線圖的概念:
問題2:在城市缺水問題中將樣本容量為100,增至1000,其頻率分布直方圖的情況會有什么變化?假如增至10000呢?
總體密度曲線的概念:
注:用樣本分布直方圖去估計相應的總體分布時,一般樣本容量越大,頻率分布直方圖就會無限接近總體密度曲線,就越精確地反映了總體的分布規律,即越精確地反映了總體在各個范圍內1.總體分布指的是總體取值的頻率分布規律,由于總體分布不易知道,因此我們往往用樣本的頻率分布去估計總體的分布。
4. 莖葉圖 莖葉圖的概念: 莖葉圖的特征:
小結:.總體的分布分兩種情況:當總體中的個體取值很少時,用莖葉圖估計總體的分布;當總體中的個體取值較多時,將樣本數據恰當分組,用各組的頻率分布描述總體的分布,方法是用頻率分布表或頻率分布直方圖。
課堂小結:
當堂檢測:
1. 一個社會調查機構就某地居民的月收入調查了10000人, 并根據所得數據畫了樣本的頻率分布直方圖(如下圖)。 為了分析居民的收入與年齡、學歷、職業等方面的關系, 要從這10000人中再用分層抽樣方法抽出100人作進一步 調查,則 [2500,3000)(元)月收入段應抽取 人。
2、為了解某校高三學生的視力情況,隨機抽查了該校200名高三學生的視力情況,得到頻率分布直方圖(如圖), 由于不慎將部分數據丟失,但知道前四組的頻數成等比數 列,后6組的頻數成等差數列,設最多一組學生數為a,視 力在4.6到5.0之間的頻率為b,則
a+b= . 3.在抽查產品的尺寸過程中,將其尺寸分成若干組,[a,b)是其中的一組,抽查出的個體在該組上的頻率為m,該組上的直方圖的高為h,則ba-=______. 4.為了了解中學生的身高情況,對育才中學同齡的50名男學生的身高進行了測量,結果如下:(單位:cm): 175 168 180 176 167 181 162 173 171 177 171 171 174 173 174 175 177 166 163 160 166 166 163 169 174 165 175 165 170 158 174 172 166 172 167 172 175 161 173 167 170 172 165 157 172 173 166 177 169 181
(1)列出樣本的頻率分布表。
(2)畫出頻率分布直方圖。
(3)畫頻率分布折線圖;
一、教學目標分析
1.知識與技能目標
(1)通過實例體會分布的意義和作用。
(2)在表示樣本數據的過程中,學會列頻率分布表,畫頻率分布直方圖。
(3)通過實例體會頻率分布直方圖的特征,能準確地做出總體估計。
2、過程與方法目標:
通過對現實生活的探究,感知應用數學知識解決問題的方法,理解數形結合的數學思想和邏輯推理的數學方法。
3、情感態度與價值觀目標:
通過對樣本分析和總體估計的過程,感受數學對實際生活的需要,認識到數學知識源于生活并指導生活的事實,體會數學知識與現實世界的聯系。
二、 教學的重點和難點
重點:會列頻率分布表,畫頻率分布直方圖。
難點:能通過樣本的頻率分布估計總體的分布。
三、教法與學法分析
1、教法:遵循觀察、探究、發現、總結式的教學模式。重點以引導學生為主,讓他們能積極、主動的進 行探索,獲取知識。由于內容較繁瑣,所以要借助多媒體輔助教學。
2、學法:根據本節知識的特點,由于學生已具備一定的基礎知識,可采取研究性學習的學習方法。
四、教學過程
(一)情境引入
1.隨機抽樣有哪幾種基本的抽樣方法?
簡單隨機抽樣、系統抽樣、分層抽樣.
2.隨機抽樣是收集數據的方法,如何通過樣本數據所包含的信息,估計總體的基本特征,即
用樣本估計總體,是我們需要進一步學習的內容.
3.高二某班有50名學生,在數學必修②結業考試后隨機抽取10名,其考試成績如下:
82, 75, 61, 93, 62, 55, 70, 68, 85, 78.
如果要求我們根據上述抽樣數據,估計該班對數學模塊②的總體學習水平,就需要有相應的數學方法作為理論指導,本節課我們將學習用樣本的頻率分布估計總體分布.
(二)新課講解
知識探究(一):頻率分布表
【問題】 我國是世界上嚴重缺水的國家之一,城市缺水問題較為突出,某市政府為了節約生活用水,計劃在本市試行居民生活用水定額管理,即確定一個居民月用水量標準a,用水量不超過a的部分按平價收費,超出a的部分按議價收費.
通過抽樣調查,獲得100位居民2007年的月均用水量如下表(單位:t):
3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6 3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4 3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8 3.3 2.8 2.3 2.2
1.7 1.3 3.6 1.7 0.6 4.1 3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3 3.0
2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0 2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3 2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4 2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4 2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2
思考1:上述100個數據中的最大值和最小值分別是什么?由此說明樣本數據的變化范圍是
什么?
0.2~4.3
思考2:樣本數據中的最大值和最小值的差稱為極差.如果將上述100個數據按組距為0.5進行分組,那么這些數據共分為多少組?
(4.3-0.2)÷0.5=8.2
思考3:以組距為0.5進行分組,上述100個數據共分為9組,各組數據的取值范圍可以如何設定?
[0,0.5),[0.5,1),[1,1.5),„,[4,4.5].
思考4:如何統計上述100個數據在各組中的頻數?如何計算樣本數據在各組中的頻率?你能將這些數據用表格反映出來嗎?
分 組 頻數累計 頻數 頻率
[0,0.5)
4 0.04
[0.5,1)
8 0.08
[1,1.5) 正 正 正 15 0.15
[1.5,2) 正 正 正 正 22 0.22
[2,2.5) 正 正 正 正 正 25 0.25
[2.5,3) 正 正
14 0.14
[3,3.5) 正 一 6 0.06
[3.5,4)
4 0.04
[4,4.5]
2 0.02
合計 100 1.00
思考5:上表稱為樣本數據的頻率分布表,由此可以推測該市全體居民月均用水量分布的大致情況,給市政府確定居民月用水量標準提供參考依據,這里體現了一種什么統計思想?
用樣本的頻率分布估計總體分布.
思考6:如果市政府希望85%左右的居民每月的用水量不超過標準,根據上述頻率分布表,你對制定居民月用水量標準(即a的取值)有何建議?
88%的居民月用水量在3t以下,可建議取a=3
思考7:在實際中,取a=3t一定能保證85%以上的居民用水不超標嗎?哪些環節可能會導致結論出現偏差?
分組時,組距的大小可能會導致結論出現偏差,實踐中,對統計結論是需要進行評價的. 思考8:對樣本數據進行分組,其組數是由哪些因素確定的?
思考9:對樣本數據進行分組,組距的確定沒有固定的標準,組數太多或太少,都會影響我們了解數據的分布情況.數據分組的組數與樣本容量有關,一般樣本容量越大,所分組數越多.按統計原理,若樣本的容量為n,分組數一般在(1+3.3lgn)附近選取.當樣本容量不超過100時,按照數據的多少,常分成5~12組.若以0.1或1.5為組距對上述100個樣本數據分組合適嗎?
思考10:一般地,列出一組樣本數據的頻率分布表可以分哪幾個步驟進行?
第一步,求極差.(極差=樣本數據中最大值與最小值的差)
第二步,決定組距與組數.
(設k=極差÷組距,若k為整數,則組數=k,否則,組數=k+1)
第三步,確定分點,將數據分組.
第四步,統計頻數,計算頻率,制成表格.
(頻數=樣本數據落在各小組內的個數, 頻率=頻數÷樣本容量)
知識探究(二):頻率分布直方圖
思考1:為了直觀反映樣本數據在各組中的分布情況,我們將上述頻率分布表中的有關信息用下面的圖形表示:
上圖稱為頻率分布直方圖,其中橫軸表示月均用水量,縱軸表示頻率/組距. 頻率分布直方圖中各小長方形的和高度在數量上有何特點?
思考2:頻率分布直方圖中各小長方形的面積表示什么?各小長方形的面積之和為多少?
各小長方形的面積=頻率
各小長方形的面積之和=1
思考3:頻率分布直方圖非常直觀地表明了樣本數據的分布情況,使我們能夠看到頻率分布表中看不太清楚的數據模式,但原始數據不能在圖中表示出來.你能根據上述頻率分布直方圖指出居民月均用水量的一些數據特點嗎?
(1)居民月均用水量的分布是“山峰”狀的,而且是“單峰”的;
(2)大部分居民月均用水量集中在一個中間值附近,只有少數居民月均用水量很多或很少;
(3)居民月均用水量的分布有一定的對稱性等.
思考4:樣本數據的頻率分布直方圖是根據頻率分布表畫出來的,一般地,頻率分布直方圖的作圖步驟如何?
第一步,畫平面直角坐標系.
第二步,在橫軸上均勻標出各組分點,在縱軸上標出單位長度.
第三步,以組距為寬,各組的頻率與組距的商為高,分別畫出各組對應的小長方形.
思考5:對一組給定的樣本數據,頻率分布直方圖的外觀形狀與哪些因素有關?在居民月均用水量樣本中,你能以1為組距畫頻率分布直方圖嗎?
(三)例題講解
例1、 某地區為了了解知識分子的年齡結構,隨機抽樣50名,其年齡分別如下:
42,38,29,36,41,43,54,43,34,44,40,59,39,42,44,50,37,44,45,29, 48,45,53,48,37,28,46,50,37,44,42,39,51,52,62,47,59,46,45,67, 53,49,65,47,54,63,57,43,46,58.
(1)列出樣本頻率分布表;
(2)畫出頻率分布直方圖;
(3)估計年齡在32~52歲的知識分子所占的比例約是多少.
(1)極差為67-28=39,取組距為5,分為8組.
樣本頻率分布表:
分 組 頻數 頻率
[27,32) 3 0.06
[32,37) 3 0.06
[37,42) 9 0.18
[42,47) 16 0.32
[47,52) 7 0.14
[52,57) 5 0.10
[57,62) 4 0.08
[62,67) 3 0.06
合 計 50 1.00
(2)樣本頻率分布直方圖:
頻率
(3)因為0.06+0.18+0.32+0.14=0.7, 故年齡在32例 2、為了了解小學生的體能情況,抽取了某小 學同年級部分學生進行跳繩測試,將所得的數據 整理后畫出頻率分布直方圖(如圖),已知圖中從 左到右的前三個小組的頻率分別是0.1,0.3,0.4。 第一小組的頻數是5. (1) 求第四小組的頻率和參加這次測試的學生人數; (2) 求a,b,c,d并且將直方圖補充完整。
(3) 參加這次測試跳繩次數在100次以上為優秀, 試估計該校此年級跳繩成績優秀率是多少?
(1)從而第四組頻率:0.2 參加學生人數5 ÷0.1=50
(2)a=0.016 ,b=0.016 ,c=0.016,d=0.016如圖所示
(3)優秀率為0.4+0.2=0.6
例3、2009年10月31日,我國國家食品藥品監督管理局已批準8家疫苗生產企業生產甲型H1N1流感疫苗。為了調查這些企業的生產能力,隨機抽 查了其中一個企業20天每天生產甲型H1N1流感疫苗的數量
(單位: 萬劑),疫苗數量的分組區間為:[45,55],[55,65],[65,75], [75,85],[85,95],由此得到頻率分布直方圖如圖,則由此估計該 企業一個月(以由頻率分布直方圖知疫苗生產數量在65萬劑以上的有三組,這三組的頻率比組 距之和是0.025+0.010+0.005=0.040, ∵組距是10,∴三組的頻率之和是0.040×10=0.4,
∴生產產品數量在65萬劑以上的天數約 為30×0.4=12,故答案為:12
(四)課堂小結
1.頻率分布是指一個樣本數據在各個小范圍內所占比例的大小,總體分布是指總體取值的頻率分布規律.我們通常用樣本的頻率分布表或頻率分布直方圖去估計總體的分布.
2.頻率分布表和頻率分布直方圖,是對相同數據的兩種不同表達方式.用緊湊的表格改變數據的排列方式和構成形式,可展示數據的分布情況.通過作圖既可以從數據中提取信息,又可以利用圖形傳遞信息.
3.樣本數據的頻率分布表和頻率分布直方圖,是通過各小組數據在樣本容量中所占比例大小來表示數據的分布規律,它可以讓我們更清楚的看到整個樣本數據的頻率分布情況,并由此估計總體的分布情況.
(五)課下作業:
練習:1.(1). 習題2.2A組:2.
矩估計
最簡單的矩估計法是用一階樣本原點矩估計總體期望,而用二階樣本中心矩估計總體方差。
最大似然估計
最合理的參數估計量應該是使得從模型中抽取該n組樣本觀測值的概率最大。
最小二乘法
最小二乘法是正態分布下最大似然估計的特例。
KL散度
相對熵,來源于信息論的方法。和最大似然也是殊途同歸。
最小均方誤差
看起來和二小乘一樣
最大后驗估計
來自于貝葉斯估計
Copyright 2010-2019 Qinzibuy.com 【親親園丁】 版權所有 備案編號:粵ICP備14102101號